library(rio)
library(dplyr)
library(car)#recode
endo=import("ENDO1.sav")

variable dependiente debe ser factor

data = select(endo, P2_2, P1_24_E, P1_2, P1_4, P1_5, P1_11_B, P1_11_F, P1_11_G, P1_11_H, P1_11_L, P1_18)
table(data$P2_2)
## 
##     0     1 
##  1551 16489
data$retorno=as.factor(data$P2_2)
levels(data$retorno) = c("no", "si")
table(data$retorno)
## 
##    no    si 
##  1551 16489

variables independientes siempre deben ser numérica

data$P1_4=recode(data$P1_4,"1=1;2=0")
data$P1_4=as.numeric(data$P1_4)
table(data$P1_4)
## 
##     0     1 
## 11187  7772
modelo1 = glm(retorno ~ P1_4, family = binomial(link="logit") ,data = data)
summary(modelo1)
## 
## Call:
## glm(formula = retorno ~ P1_4, family = binomial(link = "logit"), 
##     data = data)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -2.2860   0.3903   0.3903   0.4693   0.4693  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  2.53672    0.03715  68.287  < 2e-16 ***
## P1_4        -0.38607    0.05321  -7.255 4.01e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 10576  on 18039  degrees of freedom
## Residual deviance: 10524  on 18038  degrees of freedom
##   (10176 observations deleted due to missingness)
## AIC: 10528
## 
## Number of Fisher Scoring iterations: 5

glm(modelos lineales generalizados): general lineal model variable que voy a predecir va primero family = binomial(link=“logit”) familia binomial, logístico Mi coeficiente me sale negativo, me pregunto cuál es la probabilidad de que quiera o no quiera ir a clases VD= probabilidad de que quiera ir a clases presenciales VI= Vivir con personas de tercera edad Ya sé que va a ser menos probable que quiera ir a clases porque el coeficiente es negativo

exp(coef(modelo1))
## (Intercept)        P1_4 
##  12.6381074   0.6797202
1-(exp(-0.38607))
## [1] 0.3202771
1-(exp(-0.38607))*100
## [1] -66.97229

si el coeficiente sale negativo, significa que la probabilidad de que ocurra, disminuye. Si me sale positivo, la probabilidad de que quiera ir a una fiesta aumenta. Una for Si el docente vive con personas de la tercera edad, el odds de que quiera retornar a clases presenciales aumenta en 0.67 veces (esto es disminuye)/DISMINUYE en un 32.02% como aument Disminuye 0.32 veces. disminuye 32%

modelo2 = glm(retorno ~ P1_4+P1_11_H+P1_11_G, family = binomial(link="logit") ,data = data)
summary(modelo2)
## 
## Call:
## glm(formula = retorno ~ P1_4 + P1_11_H + P1_11_G, family = binomial(link = "logit"), 
##     data = data)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -2.3089   0.3798   0.3798   0.4565   0.7834  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  2.59328    0.03944  65.760  < 2e-16 ***
## P1_4        -0.38429    0.05328  -7.213 5.46e-13 ***
## P1_11_H     -0.92276    0.21281  -4.336 1.45e-05 ***
## P1_11_G     -0.26229    0.06741  -3.891 9.99e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 10576  on 18039  degrees of freedom
## Residual deviance: 10493  on 18036  degrees of freedom
##   (10176 observations deleted due to missingness)
## AIC: 10501
## 
## Number of Fisher Scoring iterations: 5

Probabilidad de que quiera ir si tiene depresión disminuye

exp(coef(modelo2))
## (Intercept)        P1_4     P1_11_H     P1_11_G 
##  13.3735135   0.6809341   0.3974216   0.7692907

aumenta esa cantidad de veces, pero sabemos que va a disminuir