Regresja logistyczna

Patryk Formela
01.04.2019

Kilka faktów

Regresja logistyczna jest jedną z najczęściej używanych technik do modelowania danych binarnych \( (0,1) \) na podstawie predyktorów.

\( p \) - prawdopodobieństwo, że zmienna objaśniana \( y \) jest równa \( 1 \). Oznacza to również, że dane zdarzenie wystąpiło.

\( (1-p) \) - prawdopodobieństwo, że zdarzenie nie wystąpiło.

\( \frac{p}{(1-p)} \) - szansa jest to prawdopodobieństwo, że zjawisko wystąpiło podzielone przez prawdopodobieństwo nie wystąpienia zjawiska.

Logarytm naturalny szansy jest nazywany przez statystyków funkcją logitową, od której pochodzi nazwa regresja logistyczna.

Prawdopodobieństwo wygrania Ekstraklasy

plot of chunk unnamed-chunk-1

\( O = \large(\frac{p}{1-p}\large) \)

Jaka jest szansa?

Szansa Lechii Gdańsk

plot of chunk unnamed-chunk-2

\[ \begin{aligned} O & = \Large(\frac{0.56}{1-0.56}\Large)\\ & = \Large(\frac{0.56}{0.44}\Large)\\ & = 1.27 \end{aligned} \]

Szansa Legii Warszawa

plot of chunk unnamed-chunk-3

\[ \begin{aligned} O & = \Large(\frac{0.51}{1-0.51}\Large)\\ & = \Large(\frac{0.51}{0.49}\Large)\\ & = 1.04 \end{aligned} \]

Jaki jest iloraz szans?

Szansa wygrania Lechii podzielona przez szansÄ™ wygrania Legii

\[ OR = \large(\frac{1.27}{1.04}\large)= 1.22 \]

Szansa wygrania Lotto Ekstraklasy przez Lechię Gdańsk jest 1.22 raza wyższa niż przez Legię Warszawa

Regresja liniowa vs. logistyczna

plot of chunk unnamed-chunk-4

Przykład z danymi dychotomicznymi

\( y \) - kredytobiorca

(\( 1 \)-dobry, \( 0 \)-zły)

\( x \) - zamieszkanie

(\( 1 \)-miasto, \( 0 \)-wieÅ›)

y <- c(1,1,0,0,1,0,0,1,1)
x <- c(0,1,1,1,0,0,1,0,1)
dane <- data.frame(y,x)
summary(fit)

Call:
glm(formula = y ~ x, family = binomial(link = "logit"), data = dane)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6651  -1.0108   0.7585   0.7585   1.3537  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)    1.099      1.155   0.951    0.341
x             -1.504      1.472  -1.022    0.307

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 12.365  on 8  degrees of freedom
Residual deviance: 11.229  on 7  degrees of freedom
AIC: 15.229

Number of Fisher Scoring iterations: 4

Interpretacja

Parametry modelu logitowego

coef(fit)
(Intercept)           x 
   1.098612   -1.504077 

\( e^{\beta_0} \) i \( e^{\beta_1} \)

exp(fit$coefficients)
(Intercept)           x 
  3.0000000   0.2222222 

Macierz błędów

     x
y     0 1 Sum
  0   1 3   4
  1   3 2   5
  Sum 4 5   9

1. Szansa, że dobry jest z miasta wynosi \( 2/3 \)

[1] 0.6666667

2. Szansa, że dobry jest ze wsi wynosi \( 3/1 \)

[1] 3

3. Iloraz szans to: \( x=1 \) do \( x=0 \) i wynosi

[1] 0.2222222

Dziękuję z uwagę