Patryk Formela
01.04.2019
Regresja logistyczna jest jedną z najczęściej używanych technik do modelowania danych binarnych \( (0,1) \) na podstawie predyktorów.
\( p \) - prawdopodobieństwo, że zmienna objaśniana \( y \) jest równa \( 1 \). Oznacza to również, że dane zdarzenie wystąpiło.
\( (1-p) \) - prawdopodobieństwo, że zdarzenie nie wystąpiło.
\( \frac{p}{(1-p)} \) - szansa jest to prawdopodobieństwo, że zjawisko wystąpiło podzielone przez prawdopodobieństwo nie wystąpienia zjawiska.
Logarytm naturalny szansy jest nazywany przez statystyków funkcją logitową, od której pochodzi nazwa regresja logistyczna.
\( O = \large(\frac{p}{1-p}\large) \)
Szansa Lechii Gdańsk
\[ \begin{aligned} O & = \Large(\frac{0.56}{1-0.56}\Large)\\ & = \Large(\frac{0.56}{0.44}\Large)\\ & = 1.27 \end{aligned} \]
Szansa Legii Warszawa
\[ \begin{aligned} O & = \Large(\frac{0.51}{1-0.51}\Large)\\ & = \Large(\frac{0.51}{0.49}\Large)\\ & = 1.04 \end{aligned} \]
Szansa wygrania Lechii podzielona przez szansÄ™ wygrania Legii
\[ OR = \large(\frac{1.27}{1.04}\large)= 1.22 \]
Szansa wygrania Lotto Ekstraklasy przez Lechię Gdańsk jest 1.22 raza wyższa niż przez Legię Warszawa
\( y \) - kredytobiorca
(\( 1 \)-dobry, \( 0 \)-zły)
\( x \) - zamieszkanie
(\( 1 \)-miasto, \( 0 \)-wieÅ›)
y <- c(1,1,0,0,1,0,0,1,1)
x <- c(0,1,1,1,0,0,1,0,1)
dane <- data.frame(y,x)
summary(fit)
Call:
glm(formula = y ~ x, family = binomial(link = "logit"), data = dane)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.6651 -1.0108 0.7585 0.7585 1.3537
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.099 1.155 0.951 0.341
x -1.504 1.472 -1.022 0.307
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 12.365 on 8 degrees of freedom
Residual deviance: 11.229 on 7 degrees of freedom
AIC: 15.229
Number of Fisher Scoring iterations: 4
Parametry modelu logitowego
coef(fit)
(Intercept) x
1.098612 -1.504077
\( e^{\beta_0} \) i \( e^{\beta_1} \)
exp(fit$coefficients)
(Intercept) x
3.0000000 0.2222222
Macierz błędów
x
y 0 1 Sum
0 1 3 4
1 3 2 5
Sum 4 5 9
1. Szansa, że dobry jest z miasta wynosi \( 2/3 \)
[1] 0.6666667
2. Szansa, że dobry jest ze wsi wynosi \( 3/1 \)
[1] 3
3. Iloraz szans to: \( x=1 \) do \( x=0 \) i wynosi
[1] 0.2222222