Szacujemy metodą, w której podajemy jaki rozkład ma nasza zmienna. Binomial określa, że zmienna jes 0-1
## left
## 0 1
## 11428 3571
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.000 3.000 4.000 3.803 5.000 7.000
##
## Call:
## glm(formula = left ~ number_project, family = binomial, data = HR)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.7697 -0.7401 -0.7256 -0.7113 1.7311
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.33561 0.06248 -21.376 < 2e-16 ***
## number_project 0.04512 0.01549 2.912 0.00359 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 16465 on 14998 degrees of freedom
## Residual deviance: 16456 on 14997 degrees of freedom
## AIC: 16460
##
## Number of Fisher Scoring iterations: 4
Z każdym kolejnym projektem (wzrost liczby projetków o jedną jednotkę, wartość logitu wzrasta o 0.045 +/- 0.015 ceteris paribus. odds_ratio to iloraz szans, musimy pozvbyć się logarytmy coefiicients to bety
exp(model2$coefficients)
## (Intercept) number_project
## 0.2629986 1.0461488
czyli z każdym kolejnym projektem (wzrost liczby projektów o 1) iloraz szans wzrasta 1.0461488 czyli 4,6% razy
punkt1=data.frame(number_project = 2)
punkt2=data.frame(number_project = 3)
pred_log_1= predict.glm(model2, newdata = punkt1)
pred_log_2 = predict.glm(model2,newdata = punkt2)
pred_log_1
## 1
## -1.245375
pred_log_2
## 1
## -1.20026
odds1=exp(pred_log_1)
odds2=exp(pred_log_2)
odds1
## 1
## 0.2878329
odds2
## 1
## 0.301116
zatem jakie są oszacowane prawdopodobienstwa, left=1 (pracownik opuscil firme) dla każdego przykładu (2 projekty lub 3 projekty?) czyli prawodopodobienstwo, ze pracownik opusci firme w przypadku liczba_projektow=2 wynosi okolo 0.2235, a jesli liczba_projektow=3 wynosi około 0.2314
p1=exp(pred_log_1)/(1+exp(pred_log_1))
p2=exp(pred_log_2)/(1+exp(pred_log_2))
p1
## 1
## 0.2235017
p2
## 1
## 0.231429
odds_ratio=odds2/odds1
odds_ratio
## 1
## 1.046149