Летняя школа статистики 2019 :)

Светлана Суязова (Аксюк)
1 августа 2019

День 3:

Логистическая регрессия

Светлана Андреевна Суязова (Аксюк)
s.a.aksuk@gmail.com

План

- Если \( Y \) бинарный: логистическая регрессия

Показатели качества модели бинарной классификации
Оценка качества: ROC-кривая
Ограничения модели

Двоичное судоку

ru-xkcd.livejournal.com/75022.html

Почему не обычная регрессия?

\( Y \) – категориальная переменная, например, вид ириса:

\[ Y = \left\{ \begin{array}{lr} 1, & setosa \\ 2, & versicolor \\ 3, & virginica \\ \end{array} \right. \]

Вопросы:

Расстояние между категориями?
Порядок категорий?

\( Y \) – категория; 1, 2, 3 – метки

Почему не обычная регрессия?

\( Y \) – категория; 1, 2, … – метки

Две категории – логистическая регрессия

\( Y \) – бинарный (0 – отсутствие признака; 1 – наличие признака). \( Y \) интерпретируется как принадлежность одному из классов; нужно задать порог отсечения.
\( Y \) – оценка вероятности (частость), \( Y \in [0, 1] \). \( Y \) интерпретируется как вероятность принадлежности одному из классов.

Более двух категорий – нерегрессионные модели.

Логистическая регрессия

На примере данных по пассажирам Титаника titanic_train{titanic}

В обучающей выборке данные по 891 пассажирам. Переменные, которые будем использовать:

Survived – выжил ли пассажир (1 – да, 0 – нет);
Pclass – в каком классе плыл пассажир (1, 2 или 3);
Sex – пол (male / female);
Age – возраст, лет;
SibSp – число братьев, сестёр, супругов на борту;
Parch – число родителей, детей на борту;
Fare – стоимость билета;
Embarked – порт, в котором пассажир сел на борт.

Логистическая регрессия

Данные по пассажирам Титаника titanic_train

    Survived Pclass    Sex Age SibSp Parch     Fare Embarked
598        0      3   male  49     0     0   0.0000        S
737        0      3 female  48     1     3  34.3750        S
808        0      3 female  18     0     0   7.7750        S
399        0      2   male  23     0     0  10.5000        S
276        1      1 female  63     1     0  77.9583        S
312        1      1 female  18     2     2 262.3750        C

Задача: предсказать Survived по остальным переменным.

Логистическая регрессия

Зависимая переменная модели – условная вероятность:

\[ Y = P(\mathrm{Survived} = \mathrm{1} | \mathrm{X = x}) \]

\[ P(X) = \hat{\beta}_0 + \hat{\beta}_1 \cdot X \]

Логистическая функция возвращает для любого X значение из интервала от 0 до 1:

\[ P(X) = {e^{\hat{\beta}_0 + \hat{\beta}_1 \cdot X} \over 1 + e^{\hat{\beta}_0 + \hat{\beta}_1 \cdot X}} \]

Выжил ~ Класс билета


    Pearson's Chi-squared test

data:  table(df.train$Survived, df.train$Pclass)
X-squared = 72.67, df = 2, p-value < 2.2e-16

Выжил ~ Пол


    Pearson's Chi-squared test with Yates' continuity correction

data:  table(df.train$Survived, df.train$Sex)
X-squared = 113.87, df = 1, p-value < 2.2e-16

Выжил ~ Возраст


    Welch Two Sample t-test

data:  df.train$Age[df.train$Survived == 0] and df.train$Age[df.train$Survived == 1]
t = 1.4755, df = 357.99, p-value = 0.141
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.6943441  4.8667893
sample estimates:
mean of x mean of y 
 30.74219  28.65596

Выжил ~ Братья и супруги


    Pearson's Chi-squared test

data:  table(df.train$Survived, df.train$SibSp)
X-squared = 15.206, df = 5, p-value = 0.009518

Выжил ~ Родители и дети


    Pearson's Chi-squared test

data:  table(df.train$Survived, df.train$Parch)
X-squared = 14.303, df = 6, p-value = 0.02643

Выжил ~ Цена билета


    Welch Two Sample t-test

data:  df.train$Fare[df.train$Survived == 0] and df.train$Fare[df.train$Survived == 1]
t = -5.4217, df = 202.13, p-value = 1.674e-07
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -43.66535 -20.37511
sample estimates:
mean of x mean of y 
 22.82266  54.84289

Выжил ~ Порт посадки


    Pearson's Chi-squared test

data:  table(df.train$Survived, df.train$Embarked)
X-squared = 20.304, df = 2, p-value = 3.901e-05

Выжил ~ Возраст

Обычная линейная регрессия

Логистическая регрессия

Логистическая регрессия

\[ P(X) = {e^{\hat{\beta}_0 + \hat{\beta}_1 \cdot X} \over 1 + e^{\hat{\beta}_0 + \hat{\beta}_1 \cdot X}} \Leftrightarrow \\ \Leftrightarrow {P(X) \over 1 - P(X)} = e^{\hat{\beta}_0 + \hat{\beta}_1 \cdot X} \]

\( {P(X) \over 1 - P(X)} \in (0, \infty) \) – риск события:

Например: если \( P(X) = 0.8 \), это означает, что 8 из 10 человек выживут с риском: \[ {P(X) \over 1 - P(X)} = {0.8 \over 1 - 0.8} = 4 \]

Логистическая регрессия

\[ \mathrm{ln} \bigg( {P(X) \over 1 - P(X)} \bigg) = \hat{\beta}_0 + \hat{\beta}_1 \cdot X \]

\( \mathrm{ln} \bigg( {P(X) \over 1 - P(X)} \bigg) \) – логарифм риска, или логит.

\( P(X) \) и \( X \) связаны нелинейно, поэтому:

коэффициент \( \hat{\beta}_1 \) не отражает изменение \( P(X) \), вызванное увеличением \( X \) на 1;
скорость изменения \( P(X) \) с изменением \( X \) на 1 зависит от текущего значения \( X \);
направление связи интерпретируется как в линейной регрессии: если \( \hat{\beta}_1 > 0 \), то \( X \uparrow \uparrow P(X) \); если \( \hat{\beta}_1 < 0 \), то \( X \uparrow \downarrow P(X) \).