анализ методом логистической регрессии на данных по климату
library(haven)
## Warning: пакет 'haven' был собран под R версии 4.5.3
data<-read_sav("База_КлимРиск_2023.sav")
head(data)
## # A tibble: 6 × 202
## ID Region Local Local1 type volna Local_group Q003 Rayon2
## <dbl> <dbl+lbl> <dbl+lb> <dbl+lb> <dbl+lb> <dbl> <dbl+lbl> <chr> <dbl+lb>
## 1 2 2 [Республи… NA NA NA 2 NA "" NA
## 2 3 2 [Республи… NA NA NA 2 NA "" NA
## 3 39 2 [Республи… NA NA NA 2 NA "" NA
## 4 13 4 [Монголия] NA NA NA 2 NA "Хов… NA
## 5 20 1 [Алтайски… 8 [Чар… 82 [Мал… 7 [Тип… 2 NA "Мал… 10 [Чар…
## 6 54 1 [Алтайски… 8 [Чар… 82 [Мал… 7 [Тип… 2 NA "Мал… 10 [Чар…
## # ℹ 193 more variables: Inter <chr>, Data <date>, V001 <chr>, V1 <dbl+lbl>,
## # V2 <date>, V3_1 <dbl>, V3_2 <dbl>, V4 <chr>, V5 <dbl+lbl>, V6 <dbl+lbl>,
## # V6_88_txt <chr>, V7 <dbl+lbl>, V7_88_txt <chr>, V8 <dbl+lbl>,
## # V9_1 <dbl+lbl>, V9_2 <dbl+lbl>, V9_3 <dbl+lbl>, V9_4 <dbl+lbl>,
## # V9_5 <dbl+lbl>, V9_6 <dbl+lbl>, V9_7 <dbl+lbl>, V9_8 <dbl+lbl>,
## # V9_9 <dbl+lbl>, V9_10 <dbl+lbl>, V9_11 <dbl+lbl>, V9_12 <dbl+lbl>,
## # V9_13 <dbl+lbl>, V9_88 <dbl+lbl>, V9_88_txt <chr>, V10 <dbl+lbl>, …
преобразуем данные в факторы
В качестве зависимой переменной будет выступать вопрос про оценку опасности проживания вблизи ледников (вопрос 19) , а в качестве объясняющих - пол, возраст и переменная проживания в определенном районе (type).
data$V19 <- factor(data$V19)
data$V1 <- factor(data$V1)
data$age_cats3 <- as.factor(data$age_cats3)
data$type <- factor(data$type)
Логистическая регрессия + результат
model_glm <- glm(V19 ~ V1 + age_cats3 + type,
data = data,
family = "binomial")
summary(model_glm)
##
## Call:
## glm(formula = V19 ~ V1 + age_cats3 + type, family = "binomial",
## data = data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.73471 0.27954 2.628 0.008581 **
## V12 -0.75686 0.15499 -4.883 1.04e-06 ***
## age_cats32 -0.24683 0.19933 -1.238 0.215596
## age_cats33 -0.78290 0.21506 -3.640 0.000272 ***
## type2 0.62612 0.48846 1.282 0.199903
## type3 -0.29908 0.52591 -0.569 0.569567
## type4 0.29038 0.26417 1.099 0.271668
## type5 0.30512 0.29504 1.034 0.301062
## type6 0.06432 0.41050 0.157 0.875498
## type7 -0.32319 0.24095 -1.341 0.179815
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1151.2 on 834 degrees of freedom
## Residual deviance: 1088.1 on 825 degrees of freedom
## (78 пропущенных наблюдений удалены)
## AIC: 1108.1
##
## Number of Fisher Scoring iterations: 4
Результат логистической регрессии показывает, что все категории type имеют p > 0,1, то есть тип района проживания не оказывает статистически значимого влияния на восприятие опасности. Переменная V12 имеет значимое отрицательное влияние на оценку опасности проживания вблизи ледников (коэффициент –0,757, p < 0,001). Респонденты 50+ и старше ставят более низкую оценку опасности (коэффициент –0,783, p < 0,001).
exp(coef(model_glm))
## (Intercept) V12 age_cats32 age_cats33 type2 type3
## 2.0848679 0.4691363 0.7812722 0.4570768 1.8703423 0.7415018
## type4 type5 type6 type7
## 1.3369331 1.3567840 1.0664304 0.7238374
Переменная V12 снижает шанс считать проживание у ледников опасным на 53% (OR = 0,47), 3 возрастная группа – на 54% (OR = 0,46). Тип района значимого влияния не оказывает.
exp(confint(model_glm))
## Выполняю профилирование...
## 2.5 % 97.5 %
## (Intercept) 1.2074262 3.6199116
## V12 0.3456490 0.6348653
## age_cats32 0.5277076 1.1538651
## age_cats33 0.2990467 0.6954502
## type2 0.7263357 5.0168214
## type3 0.2528028 2.0413154
## type4 0.7972746 2.2494014
## type5 0.7618847 2.4265119
## type6 0.4745869 2.3902800
## type7 0.4515686 1.1635351
Доверительные интервалы для отношений шансов подтверждают значимость переменных V12 и age_cats33, так как их интервалы не включают 1. Для всех категорий type и для второй возрастной группы интервалы пересекают 1, что указывает на отсутствие статистически значимого эффекта.