анализ методом логистической регрессии на данных по климату

library(haven)
## Warning: пакет 'haven' был собран под R версии 4.5.3
data<-read_sav("База_КлимРиск_2023.sav")
head(data)
## # A tibble: 6 × 202
##      ID Region       Local    Local1   type     volna Local_group Q003  Rayon2  
##   <dbl> <dbl+lbl>    <dbl+lb> <dbl+lb> <dbl+lb> <dbl> <dbl+lbl>   <chr> <dbl+lb>
## 1     2 2 [Республи… NA       NA       NA           2 NA          ""    NA      
## 2     3 2 [Республи… NA       NA       NA           2 NA          ""    NA      
## 3    39 2 [Республи… NA       NA       NA           2 NA          ""    NA      
## 4    13 4 [Монголия] NA       NA       NA           2 NA          "Хов… NA      
## 5    20 1 [Алтайски…  8 [Чар… 82 [Мал…  7 [Тип…     2 NA          "Мал… 10 [Чар…
## 6    54 1 [Алтайски…  8 [Чар… 82 [Мал…  7 [Тип…     2 NA          "Мал… 10 [Чар…
## # ℹ 193 more variables: Inter <chr>, Data <date>, V001 <chr>, V1 <dbl+lbl>,
## #   V2 <date>, V3_1 <dbl>, V3_2 <dbl>, V4 <chr>, V5 <dbl+lbl>, V6 <dbl+lbl>,
## #   V6_88_txt <chr>, V7 <dbl+lbl>, V7_88_txt <chr>, V8 <dbl+lbl>,
## #   V9_1 <dbl+lbl>, V9_2 <dbl+lbl>, V9_3 <dbl+lbl>, V9_4 <dbl+lbl>,
## #   V9_5 <dbl+lbl>, V9_6 <dbl+lbl>, V9_7 <dbl+lbl>, V9_8 <dbl+lbl>,
## #   V9_9 <dbl+lbl>, V9_10 <dbl+lbl>, V9_11 <dbl+lbl>, V9_12 <dbl+lbl>,
## #   V9_13 <dbl+lbl>, V9_88 <dbl+lbl>, V9_88_txt <chr>, V10 <dbl+lbl>, …

преобразуем данные в факторы

В качестве зависимой переменной будет выступать вопрос про оценку опасности проживания вблизи ледников (вопрос 19) , а в качестве объясняющих - пол, возраст и переменная проживания в определенном районе (type).

data$V19 <- factor(data$V19)
data$V1 <- factor(data$V1)
data$age_cats3 <- as.factor(data$age_cats3)
data$type <- factor(data$type)

Логистическая регрессия + результат

model_glm <- glm(V19 ~ V1 + age_cats3 + type, 
                   data = data, 
                   family = "binomial")
summary(model_glm)
## 
## Call:
## glm(formula = V19 ~ V1 + age_cats3 + type, family = "binomial", 
##     data = data)
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.73471    0.27954   2.628 0.008581 ** 
## V12         -0.75686    0.15499  -4.883 1.04e-06 ***
## age_cats32  -0.24683    0.19933  -1.238 0.215596    
## age_cats33  -0.78290    0.21506  -3.640 0.000272 ***
## type2        0.62612    0.48846   1.282 0.199903    
## type3       -0.29908    0.52591  -0.569 0.569567    
## type4        0.29038    0.26417   1.099 0.271668    
## type5        0.30512    0.29504   1.034 0.301062    
## type6        0.06432    0.41050   0.157 0.875498    
## type7       -0.32319    0.24095  -1.341 0.179815    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1151.2  on 834  degrees of freedom
## Residual deviance: 1088.1  on 825  degrees of freedom
##   (78 пропущенных наблюдений удалены)
## AIC: 1108.1
## 
## Number of Fisher Scoring iterations: 4

Результат логистической регрессии показывает, что все категории type имеют p > 0,1, то есть тип района проживания не оказывает статистически значимого влияния на восприятие опасности. Переменная V12 имеет значимое отрицательное влияние на оценку опасности проживания вблизи ледников (коэффициент –0,757, p < 0,001). Респонденты 50+ и старше ставят более низкую оценку опасности (коэффициент –0,783, p < 0,001).

exp(coef(model_glm))
## (Intercept)         V12  age_cats32  age_cats33       type2       type3 
##   2.0848679   0.4691363   0.7812722   0.4570768   1.8703423   0.7415018 
##       type4       type5       type6       type7 
##   1.3369331   1.3567840   1.0664304   0.7238374

Переменная V12 снижает шанс считать проживание у ледников опасным на 53% (OR = 0,47), 3 возрастная группа – на 54% (OR = 0,46). Тип района значимого влияния не оказывает.

exp(confint(model_glm))
## Выполняю профилирование...
##                 2.5 %    97.5 %
## (Intercept) 1.2074262 3.6199116
## V12         0.3456490 0.6348653
## age_cats32  0.5277076 1.1538651
## age_cats33  0.2990467 0.6954502
## type2       0.7263357 5.0168214
## type3       0.2528028 2.0413154
## type4       0.7972746 2.2494014
## type5       0.7618847 2.4265119
## type6       0.4745869 2.3902800
## type7       0.4515686 1.1635351

Доверительные интервалы для отношений шансов подтверждают значимость переменных V12 и age_cats33, так как их интервалы не включают 1. Для всех категорий type и для второй возрастной группы интервалы пересекают 1, что указывает на отсутствие статистически значимого эффекта.