Preparation

Downolading packages

# libraries for tables
library(knitr)
library(kableExtra)

# for select
library(dplyr)

# library for graphs
library(ggplot2)

# for regression tables
library(stargazer)

#visualization for variables
library(QuantPsyc)

library(sjPlot)

#for Levene's test
library(car) 

#to run post hoc tests
library(userfriendlyscience) 


library(RCurl)
library(tidyverse)
library(foreign)
library(sjPlot)
library(psych)

Data

#set new directory
setwd("E:/gfgrf/ESS8SE_spss") 
getwd()
## [1] "E:/gfgrf/ESS8SE_spss"
library(foreign)
ESS <- read.spss("ESS8SE.sav", use.value.labels=T, to.data.frame=T)

Project 1

Project 1

Начнем с выбора переменных релевантных нашей теме:

myvars <-  c("happy", "sclmeet", "sclact", "inprdsc", 
                      "gndr", "ipgdtim", "yrbrn", "pplhlp")
ESS1 <- ESS[myvars]
rm(myvars)

ESS1 = na.omit(ESS1) 

Таблица переменных

Variable <- c("Gndr - Gender", "Yrbrn - Year of birth", "Happy - How happy are you", "Sclmeet - How often socially meet with friends, relatives or colleagues", "Sclact - Take part in social activities compared to others of same age", "Inprdsc - How many people with whom you can discuss intimate and personal matters", "Ipgdtim - Important to have a good time")
Qualitative_or_Quantitative <- c("Qualitative", "Quantitative", "Qualitative", "Qualitative", "Qualitative", "Qualitative", "Qualitative")
Level_of_measurement <-c("Nominal", "Interval", "Ordinal", "Ordinal", "Ordinal", "Ordinal", "Ordinal")
Continuous_or_Discrete <- c("Discrete","Continuous", "Discrete", "Discrete", "Discrete", "Discrete", "Discrete")
Table = data.frame(Variable, Qualitative_or_Quantitative, Level_of_measurement, Continuous_or_Discrete)
print(Table)
##                                                                            Variable
## 1                                                                     Gndr - Gender
## 2                                                             Yrbrn - Year of birth
## 3                                                         Happy - How happy are you
## 4           Sclmeet - How often socially meet with friends, relatives or colleagues
## 5            Sclact - Take part in social activities compared to others of same age
## 6 Inprdsc - How many people with whom you can discuss intimate and personal matters
## 7                                           Ipgdtim - Important to have a good time
##   Qualitative_or_Quantitative Level_of_measurement Continuous_or_Discrete
## 1                 Qualitative              Nominal               Discrete
## 2                Quantitative             Interval             Continuous
## 3                 Qualitative              Ordinal               Discrete
## 4                 Qualitative              Ordinal               Discrete
## 5                 Qualitative              Ordinal               Discrete
## 6                 Qualitative              Ordinal               Discrete
## 7                 Qualitative              Ordinal               Discrete

Перекодируем наши переменные в numeric:

ESS1$yrbrn <-as.numeric(ESS1$yrbrn) 

CTM

Describe single variables using CTM

Для лучшего восприятия данных нами была сгенирированна таблица по CTM по нашим переменным:

Moda

Найдем моду у переменных, ее имеют все наши переменные:

## [1] 28
## [1] Somewhat like me
## 6 Levels: Very much like me Like me Somewhat like me ... Not like me at all
## [1] 8
## Levels: Extremely unhappy 1 2 3 4 5 6 7 8 9 Extremely happy
## [1] About the same
## 5 Levels: Much less than most Less than most ... Much more than most
## [1] Several times a week
## 7 Levels: Never Less than once a month ... Every day
## [1] 4-6
## Levels: None 1 2 3 4-6 7-9 10 or more
## [1] Female
## Levels: Male Female

Median

Также посмотрим на медианное и среднее значение наших переменных:

median(as.numeric(ESS1$yrbrn), na.rm = T)
## [1] 45
mean(ESS1$yrbrn, na.rm = T)
## [1] 45.66116

По нашей единственной количественной переменной (“Year of birth”) мы посмотрели первый и третий квартили, медиану, среднее, а также максимальное и минимальное значение:

summary(ESS1$yrbrn) 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00   30.00   45.00   45.66   61.00   82.00

Vizualisation

Также мы решили проиллюстрировать графиками (barplots) некоторые из наших переменных:

На данном графике представлены среднее, медианное значения и значение моды по возрасту респондентов. Можно заметить, что наибольшее значение принимает среднее значение возраста (45,5), в то время как медианное значение возраста лишь немного уступает среднему (45). Значение моды возраста не достигает даже тридцати (28) - большинство респондентов были в возрасте 28 лет.

По второму графику можно сказать, что В нашей выборке число мужчин лишь немного превосходит число женщин: 773 мужчины и 777 женщин.

Далее мы обратились к распределению наших переменных:

Распределение респондентов по возрасту:

Из графика видно, что наибольшее число респондентов - в возрасте 28 лет. В принципе респондентов моложе двадцати лет меньше, чем респондентов других возрастов. Наименьшее количество респондентов среди респондентов старше двадцати лет - около 27 респондентов в возрасте около 75 лет.

Распределение переменной - How happy are you?

Данный график отражает уровень счастья, который сами респонденты себе приписывают. Респондентам была предложена шкала, где 0 – очень несчастен, 10 – крайне счастлив. Как можно заметить большинство ответов сконцентрировано в правой части графика, из чего можно сделать вывод, что уровень счастья у превалирующего числа информантов довольно высок.

Распределение переменной - How often socially meet with friends, relatives or colleagues?

Информантам был задан вопрос «how often do you meet socially with friends, relatives or work colleagues? ». Частоту встреч необходимо было отметить по шкале, где 0 – никогда, 7 – каждый день. Как видно из гистограммы, минимальное число респондентов выбрали на шкале цифры от 0 до 3, что эквивалентно ответам «никогда» и «раз в месяц». Значительно большая часть выбирала цифры 4 – несколько раз в месяц, и 5 – раз в неделю. Однако. Самыми популярными ответами оказались «несколько раз в неделю» и «каждый день». Данная картина свидетельствует о высокой социальной активности респондентов.

Распределение переменной - Take part in social activities compared to others of same age?

График показывает частоту социальных контактов, по мнению самих респондентов, в сравнении с другими людьми их же возраста. На предложенной шкале 1 – гораздо реже, чем большинство, 5 – гораздо чаще, чем большинство. Как видно, полярные показатели гораздо чаще/реже – наиболее редкие ответы респондентов. Наиболее частые ответы респондентов приближены к середине шкалы, что соответствует цифре 3 – «about the same». В общем, респонденты считают, что взаимодействуют с людьми немного реже или так же часто, как и их ровесники.

Распределение переменной - How many people with whom you can discuss intimate and personal matters?

Здесь респондентам было предложено указать количество людей, с которыми они могут говорить на личные, интимные темы, где 0 – «ни с кем», 6 – с 10-ю и более (людьми). Чаще всего в анкетах была выбрана цифра пять, которая эквивалентна от 7 до 9 людям, с которыми респондент может поделиться сокровенной информацией. Вариант «ни с кем» является наименее популярным, поэтому можно сказать, что у большинства респондентов есть как минимум 2 человека, которым ни доверяют. Значит, уровень доверия к людям среди опрашиваемых высок.

Распределение переменной - Important to have a good time

По данному пункту респондентам была предложена следующая ситуация: please listen to each description and tell me how much each person is or is not like you. Use this card for your answer. Having a good time is important to her/him. She/he likes to “spoil” herself/himself. Уровень «схожести» респондент должен был отметить на шкале, где 0 – крайне похож на меня, 6 – абсолютно не похож на меня. Самые частые варианты ответа 2 и 3 - Like me и Somewhat like me.

Plots

Построим scatterplot для двух continuous переменных

Людям всех возрастов свойственно встречаться с друзьями и коллегами несколько раз в неделю. Люди моложе двадцати лет не склонны уходить от ответа на вопрос о частоте встреч со знакомыми. Наименьшее количество респондентов никогда не встречается со своими друзьями, родственниками и коллегами, однако таких облей практически нет. Несколько раз в месяц со своими знакомыми видятся люди примерно от 14 до 72 лет, младше 14 и старше 72 этот ответ не поддержали.

Построим boxplot для continuous and categorical(binary) переменных

Мужчины и женщины одинаково отвечают на вопрос о проводимом времени: они считают, что описания других людей чем-то похожи на них самих.

Project 2

Project 2

Сделаем таблицу для переменных,которые мы будем включть в гипотезы и проверять с помощью хи-кадрата:

table(as.character(ESS1$gndr), as.character(ESS1$sclact))
##         
##          About the same Less than most More than most Much less than most
##   Female            374            194            127                  39
##   Male              348            212            133                  42
##         
##          Much more than most
##   Female                  26
##   Male                    19
table(as.character(ESS1$gndr), as.character(ESS1$ipgdtim))
##         
##          A little like me Like me Not like me Not like me at all
##   Female              157     205          98                 12
##   Male                131     224          85                 10
##         
##          Somewhat like me Very much like me
##   Female              214                74
##   Male                217                87

Хи-квадрат

Chi-square

Мы хотим проверить следующую гипотезу для хи-квадрата:

H0: различий в социальной активности в зависимости от гендера нет

Альтернативная же будет звучать:

Н1: наблюдаются различия в социальной активности в зависимости от гендера

chisq.test(as.character(ESS1$gndr), as.character(ESS1$sclact))
## 
##  Pearson's Chi-squared test
## 
## data:  as.character(ESS1$gndr) and as.character(ESS1$sclact)
## X-squared = 3.049, df = 4, p-value = 0.5497

Вывод:

Для р-value > .05 (p-value = 0.5503), таким образом мы не можем отвергнуть основную гипотезу Н0, следовательно значимых различий в социальной активности среди мужчин и женщин в Швеции не наблюдается.

Мы решили проверить ещё одну гипотезу:

H0: гендерных различий в важности способа проведения свободного времени нет

Н1: есть различия среди мужчин и женщин в важности способа проведения свободного времени

chisq.test(as.character(ESS1$gndr), as.character(ESS1$ipgdtim))
## 
##  Pearson's Chi-squared test
## 
## data:  as.character(ESS1$gndr) and as.character(ESS1$ipgdtim)
## X-squared = 5.3409, df = 5, p-value = 0.3757

Вывод:

Снова p-value < .05 (p-value = 0.3768), поэтому нулевая гипотеза не отвергается, т.е. ценность проведение свободного времени значительно не различается у мужчин и женщин в Швеции.

Corrplot

Далее мы обратились к коррплоту по переменным Gender и Take part in social activities compared to others of same age

library(corrplot)
chi <- chisq.test(as.character(ESS1$gndr), as.character(ESS1$sclact))
chi$residuals
##                        as.character(ESS1$sclact)
## as.character(ESS1$gndr) About the same Less than most More than most
##                  Female      0.6077103     -0.6867809     -0.3076936
##                  Male       -0.6101235      0.6895080      0.3089154
##                        as.character(ESS1$sclact)
## as.character(ESS1$gndr) Much less than most Much more than most
##                  Female          -0.2604072           0.7176460
##                  Male             0.2614413          -0.7204957
corrplot(chi$residuals, is.cor = FALSE)

Вывод: Как показывает коррплот, женщин, ответивших на вопрос “About the same” и “Much more than most”, оказалось больше, чем ожидалось. В то время, как число ответов “Less than most” оказалось намного меньше для женщин, чем ожидалось, и намного больше для мужчин, соответственно. Что касается мужчин, то число ответов на вопросы “About the same” и “Much more than most” обратно пропорционально числу ответов женщин, т.е. их намного меньше, чем ожидалось.

Также мы посмотрели следующую переменную - Gender и Important to have a good time

chi <- chisq.test(as.character(ESS1$gndr), as.character(ESS1$ipgdtim))
chi$residuals
##                        as.character(ESS1$ipgdtim)
## as.character(ESS1$gndr) A little like me    Like me Not like me
##                  Female        1.0337309 -0.7052947   0.6403449
##                  Male         -1.0378357  0.7080953  -0.6428876
##                        as.character(ESS1$ipgdtim)
## as.character(ESS1$gndr) Not like me at all Somewhat like me
##                  Female          0.2877978       -0.1600403
##                  Male           -0.2889406        0.1606758
##                        as.character(ESS1$ipgdtim)
## as.character(ESS1$gndr) Very much like me
##                  Female        -0.7585170
##                  Male           0.7615290
corrplot(chi$residuals, is.cor = FALSE)

Вывод: Корплот показывает, что число ответов женщин превзошло ожидаемое по категории “A little like me”, а в категории “Very much like me” число ответов меньше, чем ожидалось. В то время как мужчины наоборот, число ответов мужчин ожидалось больше по категории “A little like me” и меньше ответов по вопросу “Very much like me”. Женщины также ответили меньше, чем ожидолось на категорию “Like me”, в отличие от мужчин, у которых однако ответов на вопрос “Not like me”, меньше, чем ожидалось, в отличие от женщин.

T-test

Далее мы хотим применить T-test к нашим данным

Для этого необходимо, (1) проверить нормальность распределения и (2) проверить равенство дисперсий у групп:

Проверка на нормальность распределения

Мы решили начать проверять нормальность распределения с теста Колмагорова-Смирнова, который является более консервативным и чувствительным к отклонениям от нормального распределения, а далее проверить распределение тестом Шапиро-Вилко, который менее консервативный, но в тоже время эффективный в обнаружении ненормального распределения:

Наши гипотезы для теста на нормальность расперделения:

H0: уровень счастья у респондентов является не нормально распределённым

H1: уровень счастья у респондентов является нормально распределённым

#Kolmogorov-Smirnov:
#H0: уровень счастья у респондентов является не нормально распределённым
#H1: уровень счастья у респондентов является нормально распределённым
ks.test(as.numeric(ESS1$happy), "pnorm")
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  as.numeric(ESS1$happy)
## D = 0.99337, p-value < 2.2e-16
## alternative hypothesis: two-sided
#Shapiro-Wilk second:
#H0: уровень счастья у респондентов является не нормально распределённым
#H1: уровень счастья у респондентов является нормально распределённым
shapiro.test(as.numeric(ESS1$happy))
## 
##  Shapiro-Wilk normality test
## 
## data:  as.numeric(ESS1$happy)
## W = 0.87359, p-value < 2.2e-16

Вывод: Оба теста показали, p-value < .05 (p-value < 2.2e-16), а это указываает в пользу принятия нулевой гипотезы, т.е. распределение не является нормальнымю.

Так как наше распределения не распределено нормально, то мы решили визуализировать его с помощью Q-Q plot и посмотреть насколько оно отклоняется от нормального:

#Now try the Q-Q plot:
qqnorm(as.numeric(ESS1$happy)); qqline(as.numeric(ESS1$happy), col= 2)

Вывод: По графику видно, что отклонения от нормального распределения есть, но они не сильно значительны для Т-теста.

Проверка на равенство дисперсий для Т-теста

Следующим шагом мы начали проверять равенство дисперсий для Т-теста. Для этого мы проверили наши гипотезы о равенстве дисперсий с помощью двух тестов - Bartlett test и Levene’s test:

Bartlett test

Наши гипотезы для следующие:

H0: Дисперсии между уровнем счастья женщин и уровнем счастья мужчин равны

H1: Дисперсии между уровнем счастья женщин и уровнем счастья мужчин не равны

#our hypothesis:
#H0: Дисперсии между уровнем счастья женщин и уровнем счастья мужчин равны**
#H1: Дисперсии между уровнем счастья женщин и уровнем счастья мужчин не равны
bartlett.test(as.numeric(ESS1$happy) ~ ESS1$gndr)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  as.numeric(ESS1$happy) by ESS1$gndr
## Bartlett's K-squared = 1.312, df = 1, p-value = 0.252

Вывод: В результате теста значение p-value >.05, следовательно дисперсия между группой мужчин и женщин равны(не можем отвергнуть нулевую гипотезу на данном уровне значимости(.05)).

Далее построим boxplot, чтобы посмотреть, как распределенны две группы:

#boxplots 
ggplot()+
  geom_boxplot(data = ESS1, aes(x = gndr, y = as.numeric(happy)), color="aquamarine3", fill="slategray2")+
  xlab("Gender")+
  ylab("Level of happiness")+
  ggtitle("Распределение уровня счастья по гендерным группам")

Вывод: График наглядно показывает, что распределение по группам совпадают, медианы, квантили, и даже выбросы почти идентичны между двумя группами.

Теперь проверим гипотезу Levene’s test:

Наши гипотезы о равенстве дисперсий:

H0: Дисперсии между уровнем счастья женщин и уровнем счастья мужчин равны

H1: Дисперсии между уровнем счастья женщин и уровнем счастья мужчин не равны

#Levene's test
#H0: Дисперсии между уровнем счастья женщин и уровнем счастья мужчин равны
#H1: Дисперсии между уровнем счастья женщин и уровнем счастья мужчин не равны
library(car)
leveneTest(as.numeric(ESS1$happy) ~ ESS1$gndr) 

Вывод: Снова p-value > .05, значит не можем отвергнуть нулевую гипотезу, поэтому как уже было видно из предыдущего теста и графика, дисперсии равны.

Теперь можно приступать к Т-тесту:

T-test

H0: Средние значения двух груп (уровнь счастья среди мужчин и женщин) не различаются

Н1: Средние значения двух груп различаются

Распределение переменной “happy” смещено вправо, поэтому прологарифмируем данную переменную

t.test(log(as.numeric(ESS1$happy)) ~ ESS1$gndr, var.equal = T)
## 
##  Two Sample t-test
## 
## data:  log(as.numeric(ESS1$happy)) by ESS1$gndr
## t = 0.5256, df = 1512, p-value = 0.5992
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.01742961  0.03018911
## sample estimates:
##   mean in group Male mean in group Female 
##             2.163351             2.156971

Вывод: Т-тест показал, что p-value = 0.6072, значит > .05, поэтому нулевая гипотеза не отвергается, а следовательно нет статистическо значимого отличия между средним уровнем счастья среди мужчин и женщин.

Project 3

Variables

The topic of our study:

“Social inclusion and the level of happiness (desired and subjectively available) among men and women of different ages from Sweden.”

We choose variables:

One of variables (social activity) would be categorial, and another (social trust) such as numeric (after recoding).

A new variable was chosen because the former ones did not fit in their abnormal distribution.

It is important to note that according to the variable pplhlp, a scale where 0 - people are self-centered, 10 - people tend to help others was offered to the respondents. The variable shows how respondents themselves assess the behavior of others.

The variable sclact describes the level of social inclusion of a person, according to his subjective assessment.

Vizualisation

Next, we looked at how our variables were distributed, for this we built the histograms:

#variables
#distribution
head(ESS1)
summary(ESS1$sclact)
#distribution of activeness
ggplot()+
  geom_histogram(data= ESS1, aes(x = as.numeric(sclact)), fill= "slategray2", color= "thistle4")+
  xlab("Activity in comparison with people of the same age in categories chosen by respondents")+
  ylab("Number of people")+
  ggtitle("Distr-n of var. - Take part in social activities compared to others of same age ")

summary(ESS1$pplhlp)
#distribution of Being Helpful
ggplot()+
  geom_histogram(data= ESS1, aes(x = as.numeric(pplhlp)), fill= "thistle1", color= "thistle4")+
  xlab("Being Helpful")+
  ylab("Number of people")+
  ggtitle("Distr-n of var. - Most of the time people helpful or mostly looking out for themselves ")

Also rechecked the types of our variables:

typeof(ESS1$sclact) 
class(ESS1$sclact) 

typeof(ESS1$pplhlp) 
class(ESS1$pplhlp)

ANOVAAssump.

  • Experimental errors are normally distributed
  • Equal variances between treatments
  • Independence of samples

Check for normal distribution

We decided to begin to check the normality of the distribution from the Kolmagorov-Smirnov test, which is more conservative and sensitive to deviations from the normal distribution, and then check the distribution of the Shapiro-Wilco test, which is less conservative, but effective at detecting the abnormal distribution:

Our hypotheses for the test for the normal distribution:

H0: The population is normally distributed

H1: The population is not normally distributed

#assumptoin - normallity

#Kolmogorov-Smirnov:
#H0: The population is normally distributed
#H1: The population is not normally distributed
ks.test(as.numeric(ESS1$pplhlp), "pnorm") #it's not normal

model=aov(as.numeric(ESS1$pplhlp)~as.factor(ESS1$sclact)) #Build a model with the normal ANOVA command
res=model$residuals #Create an object of the residuals of Y
#Shapiro
#H0: The population is normally distributed
#H1: The population is not normally distributed
shapiro.test(res) #H0 rejected

Conclusion: at p-value <0.05 - the null hypothesis is rejected. In our case, p-value = 2.2e-16 and p-value = 2.292e-13, therefore, we reject the null hypothesis, the distribution of our variables differs from the normal one.

#boxplots 
ggplot()+
  geom_boxplot(data = ESS1, aes(x = as.factor(sclact), y = as.numeric(pplhlp)), color="violetred4", fill="thistle1")+
  xlab("Take part in social activities compared to others of same age")+
  ylab("Most of the time people helpful or mostly looking out for themselves")+
  ggtitle("Distribution being helpful from participation in activity")

Describtion the graph: In these boxes, we see that the three variants (“About the same”, “More than most”, “Musch more than most”) have similar parameters: equal median at the 8 points, which is approximated to the answer that people are striving for each other to help (8/10); an equal scatter of answers at the top of the boxplots. A small difference in the bottom of the charts. In the “About the same”, “Much more the same” variants, you can see the coverage of answers that are close to the opinion that people are mostly self-centered. In the variant “About the same”, there is also an ejection at the level 1 which refers to the decisive opinion of the egocentricity of people. The “More than most” answer differs from the previous ones slightly. There is also an ejection at the same elevation. However, the scatter of answers here is less, and the extreme answer, not including the ejection, refers to the third point, which is also closer to the opinion of the egocentricity of people than to the opinion of their reliability. It can be said that for people with an average and higher social inclusion, the most popular answers are close to the opinion of people’s reliability. Another option is “Less than most”. The median is here at around 7, which is closer to the opinion of respondents that people are helpful. There is an approximately equal spread of answers in both directions (from 3 to 10). There are also emissions at the levels 2 and 1 (people are egocentric). People with low social inclusion are also inclined to believe in the reliability of others, but in a lesser degree than people with greater social social inclusion. The last boxplot covers almost all scale of people’s answers about people’s non-reliability (from 1 to 10). The median of answers is located at 6, which is almost equal to the average level of reliability of people, according to respondents. Hence, people with low social involvement do not have a strongly marked relation to the egocentricity and reliability of others.

Check for equal dispersions

Now let’s test the hypothesis of Levene’s test:

Our hypotheses about the equality of variances:

H0: groups have the same dispersion

H1: groups do not have the same variance

#assumption - dispersion
#Perform Levene's Test for homogenity of variances
#H0: groups have the same dispersion
#H1: groups do not have the same variance
leveneTest(as.numeric(ESS1$pplhlp)~as.factor(ESS1$sclact)) #H0 rejected - дисперсии не равны

Conclusion: We get p-value = 0.009877, we conclude that the variances are not equal for df = 4. Since at p-value <0.05 the null hypothesis that groups have the same variance is rejected.

ANOVA

F-test/ANOVA

H0: The difference between the averages is indistinguishable from 0

H1: The difference between means is different from 0

#ANOVA
#H0: The difference between the averages is indistinguishable from 0
#H1: The difference between means is different from 0
oneway.test(as.numeric(ESS1$pplhlp)~as.factor(ESS1$sclact), var.equal = FALSE) #ANOVA with correction for unequal variances
#H0 - rejecter - The difference between means is different from 0

Coclusion : people of different levels of helpness have different levels of social activity (F = 4.8292, p-value = 0.0009386, df = 4) the F-ratio is significant here

aov.out <- aov(as.numeric(ESS1$pplhlp)~as.factor(ESS1$sclact)) #another way to run ANOVA
summary(aov.out)
##                          Df Sum Sq Mean Sq F value   Pr(>F)    
## as.factor(ESS1$sclact)    4     72   18.10   5.083 0.000454 ***
## Residuals              1509   5372    3.56                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#If the p-value for F is less than 0.05 then we assume that the differences
#between means are ‘significant’. We would need follow-up tests to determine
#which means specifically differ.
layout(matrix(1:4,2,2)); plot(aov.out)

The test showed that p-value = 3.51e-13, which is much less than 0.05, so we can not accept the null hypothesis at df = 4. That is, the difference between the averages is distinct from zero and the differences between means are ‘significant’. Thus, F-test is significant and we can apply a post hoc test.

Description Q-Q plot and residuals: The graph shows that deviations from the normal distribution are, but they are not very significant for the T-test. The red line is very close to horizontal, hence the distribution is close to normal. We have residuals, for ex.: On the graph “Residuals vs Leverage” residuals is 22 and 618 for category “Much more than most”, and 1416 in category “About the same”.

Post hoc

Bonferroni post hoc

#Bonferroni post hoc
pairwise.t.test(as.numeric(ESS1$pplhlp), as.factor(ESS1$sclact), adjust="bonferroni")
#we have UNequal variances here (holm)

Conclusion: we have unequal variances here (holm).

Tukey post hoc

#Tukey post hoc
Tukey<-TukeyHSD(aov.out)
Tukey
layout(matrix(1:1,2,2));
par(mar=c(6, 20, 10, 2))
plot(Tukey, las=2)

Conclusion: The last graph contains confidence intervals for the difference in the means for all 10 pairs of groups. These pairs devided into two groups: those that cross the zero line and those that do not (5 via 5). “Less than most – Much less than most”, “Much more than most – Less than most”, “More than most About the same”, “Much more than most – About the same”, “Much more than most – More than most” - the lines intersect with the dashed vertical line equal to zero. And this means that in this case there is no significant difference between these options. The other options are significantly different.

Project 4

Topic

The topic of our study:

“Social inclusion and the level of happiness (desired and subjectively available) among men and women of different ages from Sweden.”

RQ

Research question:

RQ: “Какие факторы могут влиять на количество времени, которое он или она проводит за просмотром или прочтением новостей политики?”

Variables

Variables

В нашей работе мы выбрали несколько переменных, которые могут повлиять на то, как много времени человек проводит за прочтением или просмотром новостей политики: пол, образование, доход и количество рабочих часов в неделю - контрольные переменные, тип населенного пункта, где респондент проживает на постоянной основе, возраст респондента, и переменная, которая описывает, как часто респондент встречается со знакомыми, родственниками и коллегами.

df <-  c("hinctnta", "sclmeet", "nwspol", "agea", "gndr", "eduyrs", "hinctnta", "wkhtot", "domicil")
ESS2 <- ESS[df]
rm(df)

ESS2 = na.omit(ESS2) 

Hypotheses

Hypotheses

H1: Переменная Sclmeet была выбрана на основании темы нашего проекта: так как нас интересует уровень счастья и социальная включенность людей в Швеции, то нам также интересно, как это может повлиять на другие сферы жизни человека. Поэтому нами была выбрана переменная, отражающая частоту встреч со знакомыми, которая также является отображением понятия социальная включенность. Очевидно, что количество в сутках ограничено, поэтому, тратить одинаково много времени на чтение новостей и на встречи с людьми задача трудновыполнимая, по-нашему мнению. Мы также предполагаем, что регулярность, с которой человек встречается со своими приятелями, может повлиять на то, как долго он или она будет (и будет ли вообще) читать или смотреть политические новости (ведь возможно, что долгие встречи с друзьями и вовсе не оставляют времени на новости)

H2: Следующая наша переменная - Wkhtot. Мы предполагаем, что затраченное на работу время может отражаться на том, как много времени человек читает или смотрит новости политики. Как вариант, человек, который много времени проводит на работе, может узнавать новости политики от коллег и не читать/смотреть новости в свободное от работы время.

H3: Следующая наша переменная - Wkhtot. Мы предполагаем, что затраченное на работу время может отражаться на том, как много времени человек читает или смотрит новости политики. Как вариант, человек, который много времени проводит на работе, может узнавать новости политики от коллег и не читать/смотреть новости в свободное от работы время.

H4: переменная Domicil, описывающая тип населенного пункта, где проживает респондент. Наша гипотеза такова: чем меньше размер населенного пункта, тем ниже заинтересованность в политике, которая выражается в прочтении и просмотре новостей. Более того, как правило, населенные пункты меньшего размера (села, деревни) находятся в отдалении от крупных городов. Инфраструктура там, зачастую, ниже, а это осложняет доступ к информации (низкая скорость интернета, медленная работа почты, реже доходят газеты).

H5: Следующая переменная – возраст. Мы предположили, что на то, как много времени человек проводит за чтением или просмотром новостей политики, может повлиять возраст. Наша гипотеза основывается на результатах ранее проводимых в России исследованиях: во-первых, опрос ВЦИОМа 2017 года показал, что молодежь (18-24) интересуется политикой намного меньше, чем представители остальных поколений. Также, согласно исследованиям Левада-центра, интерес к политике люди начинают проявлять после 25 лет.

Table

Variables
Meaning Qualitative or Quantitative Level of measurement Predictior or Outcome variable
Gndr Gender Qualitative Nominal Predictor
Agea Age of respondent Quantitative Ratio Predictor
Nwspol News about politics and current affairs, watching, reading or listening Quantitative Ratio Outcome
Sclmeet How often socially meet with friends, relatives or colleagues Qualitative Ordinal Predictor
Eduyrs Years of full-time education completed Quantitative Ratio Predictor
Hinctnta Household’s total net income, all sources Quantitative Interval Predictor
Wkhtot Total hours normally worked per week in main job overtime included Quantitative Ratio Predictor
Domicil Domicile, respondent’s description Qualitative Nominal Predictor

Visualization

Визуализируем наши переменные без перекодировки

par(mar = rep(2, 4))
plot(ESS2$nwspol, xlab = "Time(min)", ylab = "Number of people", main = "Variable - Time spend watching, reading or listening to news about politics and current affairs on a typical day" , col = "cornflowerblue")

plot(ESS2$domicil,  xlab = "Type of location", ylab = "Number of people", main = "Variable - domicile" , col = c("antiquewhite4", "antiquewhite3", "antiquewhite2", "antiquewhite1", "blanchedalmond"))

plot(ESS2$eduyrs,  xlab = "Years", ylab = "Number of people", main = "Variable - Years of full-time education completed", col = "darkcyan")

plot(ESS2$agea,   xlab = "Years", ylab = "Number of people", main = "Variable - Age of respondent", col = "darkseagreen")

plot(ESS2$gndr, ylab="Number of people", col=c("paleturquoise1", "rosybrown1"), names=c("Male", "Female"), main = "Variable - Gender")

plot(ESS2$wkhtot,  xlab = "Hours", ylab = "Number of people", main = "Variable - Total hours normally worked per week in main job overtime included", col = "darkcyan")

plot(ESS2$sclmeet,  xlab = "Frequency of meetings", ylab = "Number of people", main = "Variable - How often socially meet with friends, relatives or colleagues" , col = c("lightcyan", "slategray1", "slategray2", "slategray3", "slategrey", "skyblue4", "darkslategray"))

plot(ESS2$hinctnta,  xlab = "Income(crown)", ylab = "Number of people", main = "Variable - Household's total net income, all sources" , col = c("gray100", "gray90", "gray80", "gray70", "gray60", "gray50", "gray40", "gray30", "gray20", "gray10"))

Перекодируем наши переменные в тип numeric:

#перекодировка
ESS2$nwspol <-as.numeric(ESS2$nwspol) 
ESS2$hinctnta <-as.numeric(ESS2$hinctnta) 
ESS2$wkhtot <-as.numeric(ESS2$wkhtot) 
ESS2$agea <-as.numeric(ESS2$agea) 
ESS2$eduyrs <-as.numeric(ESS2$eduyrs) 

Визуализация(количественных переменных):

#визуализация (количественных переменных)
hist(ESS2$nwspol, xlab = "Time (minutes)", ylab = "Number of people", main = "Time spend watching, reading or listening to news about politics and current affairs on a typical day")

hist(ESS2$eduyrs, xlab = "Years", ylab = "Number of people", main = "Years of full-time education completed")

hist(ESS2$agea, xlab = "Years", ylab = "Number of people", main = "Age of respondent")

hist(ESS2$wkhtot, xlab = "Hours", ylab = "Number of people", main = "Total hours normally worked per week in main job overtime included")

#центрирование переменных

mean(ESS2$agea)
## [1] 38.07687
ESS2$agea_c <- ESS2$agea - mean(ESS2$agea)
mean(ESS2$wkhtot)
## [1] 34.10605
ESS2$wkhtot_c <- ESS2$wkhtot - mean(ESS2$wkhtot)
mean(ESS2$eduyrs)
## [1] 13.43915
ESS2$eduyrs_c <- ESS2$eduyrs - mean(ESS2$eduyrs)

По гистограмме видно, что распределение зависимой переменной (Time spend watching, reading or listening to news about politics and current affairs on a typical day) близко к нормальному.

Также проверим нормальность зависимой переменной по тесту Шапира:

H0: The distribution of nwspol(Time spend on news about politics) does not differ from normal distribution.

H1: The distribution of nwspol(Time spend on news about politics) differs from normal distribution.

shapiro.test(ESS2$nwspol)
## 
##  Shapiro-Wilk normality test
## 
## data:  ESS2$nwspol
## W = 0.95905, p-value < 2.2e-16

По тесту Шапира, p-value значимо (p-value < 0.00000000000000022), следовательно мы отвергаем нулевую гипотезу, значит распределение не нормальное.

Regression

Регрессионная модель

Сначала посмотрим на влияние каждой переменной на зависимую:

Модель 1: Влияет ли возраст на количество просматриваемых новостей
library(ggplot2)
model1 <- lm(nwspol ~ agea, data = ESS2)
summary(model1)
## 
## Call:
## lm(formula = nwspol ~ agea, data = ESS2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -21.465  -5.638  -0.801   5.028  32.693 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  10.8071     0.4854   22.27   <2e-16 ***
## agea          0.1666     0.0115   14.48   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.845 on 1403 degrees of freedom
## Multiple R-squared:   0.13,  Adjusted R-squared:  0.1294 
## F-statistic: 209.7 on 1 and 1403 DF,  p-value: < 2.2e-16
ggplot(data = ESS2, aes(x = agea, y = nwspol))+
  geom_point()+
  geom_smooth(method = "lm", formula = y~x)+
  theme_get()+
  xlab("Age")+
  ylab("Time spend on news(min)")+
  theme_bw()

model1_1 <- lm(nwspol ~ agea_c, data = ESS2)
summary(model1_1)
## 
## Call:
## lm(formula = nwspol ~ agea_c, data = ESS2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -21.465  -5.638  -0.801   5.028  32.693 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  17.1487     0.2093   81.94   <2e-16 ***
## agea_c        0.1666     0.0115   14.48   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.845 on 1403 degrees of freedom
## Multiple R-squared:   0.13,  Adjusted R-squared:  0.1294 
## F-statistic: 209.7 on 1 and 1403 DF,  p-value: < 2.2e-16
sjt.lm(model1, show.ci = F)
    nwspol
    B p
(Intercept)   10.81 <.001
agea   0.17 <.001
Observations   1405
R2 / adj. R2   .130 / .129

Результаты модели: F-statistic значима, т.к. p-value: < 0.00000000000000022 (значим), значит модель объясняет данные и R^2 больше нуля. Далее p-value для коэффициентов значим (<0.0000000000000002), Adjusted R-squared = 0.1294, т.е. модель объясняет около 13% данных. t value больше двух, значит коэффициенты отличны от нуля. Коэффициент а = 17.1487, b = 0.1666, уравнение регрессии: nwspol = 0.1666agea_c + 17.1487; * Таким образом при увеличении возраста на один год просмотр новостей будет увеличиваться на 0.1666 минут.*

Модель2: Есть ли зависимость между количеством просматриваемых новостей и количеством лет, потраченным на образование
model2 <- lm(nwspol ~ eduyrs, data = ESS2)
summary(model2)
## 
## Call:
## lm(formula = nwspol ~ eduyrs, data = ESS2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -16.507  -6.229   0.716   5.771  32.105 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 17.89562    0.85869  20.841   <2e-16 ***
## eduyrs      -0.05557    0.06168  -0.901    0.368    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.408 on 1403 degrees of freedom
## Multiple R-squared:  0.0005783,  Adjusted R-squared:  -0.000134 
## F-statistic: 0.8119 on 1 and 1403 DF,  p-value: 0.3677
model2_1 <- lm(nwspol ~ eduyrs_c, data = ESS2)
summary(model2_1)
## 
## Call:
## lm(formula = nwspol ~ eduyrs_c, data = ESS2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -16.507  -6.229   0.716   5.771  32.105 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 17.14875    0.22431  76.451   <2e-16 ***
## eduyrs_c    -0.05557    0.06168  -0.901    0.368    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.408 on 1403 degrees of freedom
## Multiple R-squared:  0.0005783,  Adjusted R-squared:  -0.000134 
## F-statistic: 0.8119 on 1 and 1403 DF,  p-value: 0.3677
#visualization
ggplot(data = ESS2, aes(x = eduyrs, y = nwspol))+
  geom_point()+
  geom_smooth(method = "lm", formula = y~x)+
  theme_get()+
  xlab("Education(years)")+
  ylab("Time spend on news(min)")+
  theme_bw()

sjt.lm(model2_1, show.ci = F)
    nwspol
    B p
(Intercept)   17.15 <.001
eduyrs_c   -0.06 .368
Observations   1405
R2 / adj. R2   .001 / -.000

Результаты модели: F-statistic не значима, т.к. p-value = 0.3677 (незначим), значит модель не объясняет данные и R^2 меньше нуля (-0.000134). Таким образом, количество лет, затраченных на образование не влияет на количество времени, потраченном на просмотр новостей.

Model 3: влияет ли местопроживания на время, потраченное на просмотр новостей
model3 <- lm(nwspol ~ as.numeric(domicil), data = ESS2)
summary(model3)
## 
## Call:
## lm(formula = nwspol ~ as.numeric(domicil), data = ESS2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -16.9239  -6.1145   0.4808   5.8855  31.0761 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          18.3286     0.6045  30.319   <2e-16 ***
## as.numeric(domicil)  -0.4047     0.1926  -2.101   0.0358 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.397 on 1403 degrees of freedom
## Multiple R-squared:  0.003137,   Adjusted R-squared:  0.002427 
## F-statistic: 4.415 on 1 and 1403 DF,  p-value: 0.0358
#visualization
ggplot(data = ESS2, aes(x = as.numeric(domicil), y = nwspol))+
  geom_point()+
  geom_smooth(method = "lm", formula = y~x)+
  theme_get()+
  xlab("Domicile")+
  ylab("Time spend on news(min)")+
  theme_bw()

boxplot(ESS2$nwspol ~ ESS2$domicil, main = "Влияние местожительства на время, потраченное на просмотр новостей", xlab = "Domicil", ylab = "Time spend on news(min)")

sjt.lm(model3, show.ci = F)
    nwspol
    B p
(Intercept)   18.33 <.001
as.numeric(domicil)   -0.40 .036
Observations   1405
R2 / adj. R2   .003 / .002

Результаты модели: F-statistic значима, т.к. p-value: 0.0358 (значим, т.к. меньше 0.05), значит модель объясняет данные и R^2 больше нуля (0.002427). Далее p-value для коэффициентов значим (0.0358), Adjusted R-squared = 0.002427, т.е. модель объясняет примерно 0.2% данных. t value по модулю больше двух, значит коэффициенты отличны от нуля. Коэффициент а = 18.3286, b = -0.4047, уравнение регрессии: nwspol = -0.4047domicil + 18.3286; * Таким образом при увеличении месторасположения на одну категорию (т.е. например, при переходе от категории “big city” к “Suburbs or outskirts of big city” или при сдвиге на одну последующую категорию с меньшим количеством жителей.) просмотр новостей будет уменьшаться на -0.4047 минут.* Обратная зависимость, отрицательный наклон, отрицательная корреляция.

Model 4: Влияет ли гендер на время, потраченное на просмотр новостей
model4 <- lm(nwspol ~ gndr, data = ESS2)
summary(model4)
## 
## Call:
## lm(formula = nwspol ~ gndr, data = ESS2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -16.393  -6.393   0.607   5.607  31.607 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  17.3930     0.3155  55.128   <2e-16 ***
## gndrFemale   -0.4937     0.4486  -1.101    0.271    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.407 on 1403 degrees of freedom
## Multiple R-squared:  0.0008625,  Adjusted R-squared:  0.0001504 
## F-statistic: 1.211 on 1 and 1403 DF,  p-value: 0.2713
#visualization
boxplot(ESS2$nwspol ~ ESS2$gndr, main = "Bлияет ли гендер на время, потраченное на просмотр новостей", xlab = "Gender", ylab = "Time spend on news(min)")

sjt.lm(model4, show.ci = F)
    nwspol
    B p
(Intercept)   17.39 <.001
gndr (Female)   -0.49 .271
Observations   1405
R2 / adj. R2   .001 / .000

Результаты модели: F-statistic не значима, т.к. p-value = 0.2713 (незначим), значит модель не объясняет данные и R^2 не отличается от нуля. Таким образом, гендер не влияет на количество времени, потраченном на просмотр новостей.

Model 5: Влияет ли доход на время, потраченное на просмотр новостей
model5 <- lm(nwspol ~ hinctnta, data = ESS2)
summary(model5)
## 
## Call:
## lm(formula = nwspol ~ hinctnta, data = ESS2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -17.219  -6.619   0.581   5.781  31.781 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 18.41919    0.53932  34.153  < 2e-16 ***
## hinctnta    -0.20002    0.07725  -2.589  0.00972 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.39 on 1403 degrees of freedom
## Multiple R-squared:  0.004756,   Adjusted R-squared:  0.004046 
## F-statistic: 6.704 on 1 and 1403 DF,  p-value: 0.00972
#visualization
ggplot(data = ESS2, aes(x = hinctnta, y = nwspol))+
  geom_point()+
  geom_smooth(method = "lm", formula = y~x)+
  theme_get()+
  xlab("Income(decile)")+
  ylab("Time spend on news(min)")+
  theme_bw()

boxplot(ESS2$nwspol ~ ESS2$hinctnta, main = "Bлияет ли доход на время, потраченное на просмотр новостей", xlab = "Income(decile)", ylab = "Time spend on news(min)")

sjt.lm(model5, show.ci = F)
    nwspol
    B p
(Intercept)   18.42 <.001
hinctnta   -0.20 .010
Observations   1405
R2 / adj. R2   .005 / .004

Результаты модели: F-statistic значима, т.к. p-value: 0.03114 (значим, т.к. меньше 0.05), значит модель объясняет данные и R^2 больше нуля (0.002596). Далее p-value для коэффициентов значим (0.0311), Adjusted R-squared = 0.002596, т.е. модель объясняет примерно 0.3% данных. t value по модулю больше двух (-2.157), значит коэффициенты отличны от нуля. Коэффициент а = 80.1503 , b = -1.6589, уравнение регрессии: nwspol = -1.6589hinctnta + 80.1503; * Таким образом при увеличении на один дециль дохода (переход в категорию следующего дециля) просмотр новостей будет уменьшаться на -1.6589 минут.* Обратная зависимость, отрицательный наклон, отрицательная корреляция.

Model 6: Влияет ли количество часов, потраченных на работу на время, потраченное на просмотр новостей
model6 <- lm(nwspol ~ wkhtot, data = ESS2)
summary(model6)
## 
## Call:
## lm(formula = nwspol ~ wkhtot, data = ESS2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -16.393  -6.184   0.789   5.834  31.743 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 16.838863   0.698215  24.117   <2e-16 ***
## wkhtot       0.009086   0.019386   0.469    0.639    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.41 on 1403 degrees of freedom
## Multiple R-squared:  0.0001565,  Adjusted R-squared:  -0.0005561 
## F-statistic: 0.2197 on 1 and 1403 DF,  p-value: 0.6394
model6_1 <- lm(nwspol ~ wkhtot_c, data = ESS2)
summary(model6_1)
## 
## Call:
## lm(formula = nwspol ~ wkhtot_c, data = ESS2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -16.393  -6.184   0.789   5.834  31.743 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 17.148754   0.224358  76.435   <2e-16 ***
## wkhtot_c     0.009086   0.019386   0.469    0.639    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.41 on 1403 degrees of freedom
## Multiple R-squared:  0.0001565,  Adjusted R-squared:  -0.0005561 
## F-statistic: 0.2197 on 1 and 1403 DF,  p-value: 0.6394
#visualization
ggplot(data = ESS2, aes(x = wkhtot, y = nwspol))+
  geom_point()+
  geom_smooth(method = "lm", formula = y~x)+
  theme_get()+
  xlab("Work(in hours)")+
  ylab("Time spend on news(min)")+
  theme_bw()

sjt.lm(model6_1, show.ci = F)
    nwspol
    B p
(Intercept)   17.15 <.001
wkhtot_c   0.01 .639
Observations   1405
R2 / adj. R2   .000 / -.001

Результаты модели: F-statistic не значима, т.к. p-value = 0.585 (незначим), значит модель не объясняет данные и R^2 меньше нуля (-0.0005). Таким образом, количество часов работы не влияет на количество времени, потраченном на просмотр новостей.

Модель 7: Eсть ли зависимость между количеством просматриваемых новостей и частотой встреч с друзьями, коллегами, родственниками
model7 <- lm(nwspol ~ as.numeric(sclmeet), data = ESS2)
summary(model7)
## 
## Call:
## lm(formula = nwspol ~ as.numeric(sclmeet), data = ESS2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -17.4805  -6.3391   0.6609   6.0413  31.2804 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          19.2415     0.9367  20.542   <2e-16 ***
## as.numeric(sclmeet)  -0.3805     0.1654  -2.301   0.0215 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.395 on 1403 degrees of freedom
## Multiple R-squared:  0.003759,   Adjusted R-squared:  0.003049 
## F-statistic: 5.294 on 1 and 1403 DF,  p-value: 0.02154
#visualization
ggplot(data = ESS2, aes(x = as.numeric(sclmeet), y = nwspol))+
  geom_point()+
  geom_smooth(method = "lm", formula = y~x)+
  theme_get()+
  xlab("Domicile")+
  ylab("Time spend on news(min)")+
  theme_bw()

boxplot(nwspol ~ sclmeet, main = "Есть ли зависимость между количеством просматриваемых новостей и частотой встреч с друзьями, коллегами, родственниками", xlab = "Частота встреч", ylab = "Time spend on news(min)", data=ESS2)

sjt.lm(model7, show.ci = F)
    nwspol
    B p
(Intercept)   19.24 <.001
as.numeric(sclmeet)   -0.38 .022
Observations   1405
R2 / adj. R2   .004 / .003

Результаты модели: F-statistic значима, т.к. p-value: 0.02154 (значим, т.к. меньше 0.05), значит модель объясняет данные и R^2 больше нуля (0.003049). Далее p-value для коэффициентов значим (0.0215), Adjusted R-squared = 0.003049, т.е. модель объясняет примерно 0.3% данных. t value по модулю больше двух (-2.301), значит коэффициенты отличны от нуля. Коэффициент а = 19.2415 , b = -0.3805, уравнение регрессии: nwspol = -0.3805sclmeet + 19.2415; * Таким образом при увеличении количества встреч с друзьями (переход из одной категории “never” в последующую “less then once a month” и т.д.) просмотр новостей будет уменьшаться на -0.3805 минут.* Обратная зависимость, отрицательный наклон, отрицательная корреляция.

Сравнение моделей в таблице:

library(stargazer)
#table comparison
stargazer(model1_1, model2, model3, model4, model5, model6, model7, type = "text", title = "Regression results")
## 
## Regression results
## ======================================================================================================
##                                                          Dependent variable:                          
##                                 ----------------------------------------------------------------------
##                                                                 nwspol                                
##                                    (1)        (2)       (3)       (4)       (5)       (6)       (7)   
## ------------------------------------------------------------------------------------------------------
## agea_c                           0.167***                                                             
##                                  (0.012)                                                              
##                                                                                                       
## eduyrs                                      -0.056                                                    
##                                             (0.062)                                                   
##                                                                                                       
## as.numeric(domicil)                                  -0.405**                                         
##                                                       (0.193)                                         
##                                                                                                       
## gndrFemale                                                      -0.494                                
##                                                                 (0.449)                               
##                                                                                                       
## hinctnta                                                                 -0.200***                    
##                                                                           (0.077)                     
##                                                                                                       
## wkhtot                                                                               0.009            
##                                                                                     (0.019)           
##                                                                                                       
## as.numeric(sclmeet)                                                                          -0.380** 
##                                                                                               (0.165) 
##                                                                                                       
## Constant                        17.149***  17.896*** 18.329*** 17.393*** 18.419*** 16.839*** 19.241***
##                                  (0.209)    (0.859)   (0.605)   (0.315)   (0.539)   (0.698)   (0.937) 
##                                                                                                       
## ------------------------------------------------------------------------------------------------------
## Observations                      1,405      1,405     1,405     1,405     1,405     1,405     1,405  
## R2                                0.130      0.001     0.003     0.001     0.005    0.0002     0.004  
## Adjusted R2                       0.129     -0.0001    0.002    0.0002     0.004    -0.001     0.003  
## Residual Std. Error (df = 1403)   7.845      8.408     8.397     8.407     8.390     8.410     8.395  
## F Statistic (df = 1; 1403)      209.704***   0.812    4.415**    1.211   6.704***    0.220    5.294** 
## ======================================================================================================
## Note:                                                                      *p<0.1; **p<0.05; ***p<0.01

Таблица суммирует нашу информацию по всем проверенным переменным (по всем моделям, состящим из одного предиктора). Из таблицы видно, что по отдельности на зависимую переменную оказывают влияние следующие переменные: возраст, местопроживания, доход и частота встреч.

ANOVA

ANOVA

Далее мы попробуем скомбинировать (добавить) переменные и посмотреть, стенет ли модель объяснять лучше наши данные. Также будем в основном работать с переменными, которые были значимыми по отдельности (т.е. это возраст, доход, частота встреч и местожительство)

Model 8: Влияют ли вместе переменные социальной активности и возраста на время, потраченное на просмотр новостей
model8 <- lm(nwspol ~ agea_c + as.numeric(sclmeet), data = ESS2)
summary(model8)
## 
## Call:
## lm(formula = nwspol ~ agea_c + as.numeric(sclmeet), data = ESS2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -21.553  -5.667  -0.771   5.018  32.609 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         16.66270    0.89396  18.639   <2e-16 ***
## agea_c               0.16791    0.01176  14.278   <2e-16 ***
## as.numeric(sclmeet)  0.08837    0.15801   0.559    0.576    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.846 on 1402 degrees of freedom
## Multiple R-squared:  0.1302, Adjusted R-squared:  0.129 
## F-statistic:   105 on 2 and 1402 DF,  p-value: < 2.2e-16
sjt.lm(model8, show.ci = F)
    nwspol
    B p
(Intercept)   16.66 <.001
agea_c   0.17 <.001
as.numeric(sclmeet)   0.09 .576
Observations   1405
R2 / adj. R2   .130 / .129

Результаты модели: F-statistic значима, т.к. p-value < 0.00000000000000022 (значим, т.к. меньше 0.05), значит модель объясняет данные и R^2 больше нуля (0.129 ), т.е. модель объясняет примерно 13% данных. p-value для коэффициентов значимо только для переменной возраста (p-value < 0.0000000000000002). t value по модулю больше двух тоже только для переменной возраста, значит коэффициенты отличны от нуля. Коэффициент а = 16.66270 , b = 0.16791, уравнение регрессии: nwspol = 0.16791agea_c + 16.66270; Таким образом при увеличении возраста на один год просмотр новостей будет увеличиваться на 0.16791 минут.

ANOVA 1

Посмотрим, стоило ли добовлять переменные…

H0: две модели не отличаются друг от друга

anova(model1_1, model8)
anova(model7, model8)

Результаты anova 1: В первом случае для модели 1_1 и модели 8, p-value = 0.5761, сл-но незначимо, поэтому модели значимо не отличаются друг от друга, поэтому переменную (sclmeet) не стоит добавлять в данную модель. Во втором случае для модели 7 и модели 8, p-value < 0.00000000000000022, сл-но значимо, поэтому модели значимо различаются и модель 8 объясняет данные лучше.

Переменная возраста (модель содержащая переменную возраста) описывает большой процент данных (по сравнению с другими предикторами), поэтому при добавлении к ней некоторых переменных, они могут терять значимость(т.к. отдельное они значимы), поэтому далее мы посмотрим несколько моделей без возраста, переменную возраста добавим лишь в финальную модель.

Model 10: Влияют ли вместе переменные социальной активности и местопроживания на время, потраченное на просмотр новостей
model10 <- lm(nwspol ~ as.numeric(domicil) + as.numeric(sclmeet), data = ESS2)
summary(model10)
## 
## Call:
## lm(formula = nwspol ~ as.numeric(domicil) + as.numeric(sclmeet), 
##     data = ESS2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -18.3663  -6.4847   0.6295   5.6878  30.4320 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          20.5929     1.1153  18.464   <2e-16 ***
## as.numeric(domicil)  -0.4283     0.1925  -2.225   0.0263 *  
## as.numeric(sclmeet)  -0.3992     0.1653  -2.414   0.0159 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.383 on 1402 degrees of freedom
## Multiple R-squared:  0.007264,   Adjusted R-squared:  0.005848 
## F-statistic:  5.13 on 2 and 1402 DF,  p-value: 0.006031
sjt.lm(model10, show.ci = F)
    nwspol
    B p
(Intercept)   20.59 <.001
as.numeric(domicil)   -0.43 .026
as.numeric(sclmeet)   -0.40 .016
Observations   1405
R2 / adj. R2   .007 / .006

Результаты модели: F-statistic значима, т.к. p-value = 0.006031, значит модель объясняет данные и R^2 больше нуля (0.005848), т.е. модель объясняет примерно 0.6% данных. p-value для коэффициентов значимо только для переменной частоты встреч(p-value = 0.0159) и местожительства(p-value = 0.0263). t value по модулю больше двух для переменных частоты встреч (t value = -2.414) и местожительства (t value = -2.225), значит коэффициенты отличны от нуля. Коэффициент а = 20.5929 , b1 = -2.414, b2 = -2.225, уравнение регрессии: nwspol = -2.414sclmeet - 2.225domicil + 20.5929;

ANOVA 3

H0: две модели не отличаются друг от друга

anova(model3, model10)
anova(model7, model10)

Результаты anova 3: В первом случае для модели 3 и модели 10, p-value = 0.0159, сл-но значимо, поэтому модели значимо отличаются и модель 10 описывает данные лучше, поэтому переменная (sclmeet) стоит оставить в модели. Во втором случае для модели 7 и модели 10, p-value = 0.02625, сл-но значимо, поэтому модели значимо отличаются и модель 10 описывает данные лучше, поэтому перменную (domicil) стоит оставить в модели.

Нарастим нашу модель, добавив третий предиктор:

Model 12: Влияют ли вместе переменные социальной активности, местожительства и дохода на время, потраченное на просмотр новостей
model12 <- lm(nwspol ~ as.numeric(domicil) + as.numeric(sclmeet) + hinctnta, data = ESS2)
summary(model12)
## 
## Call:
## lm(formula = nwspol ~ as.numeric(domicil) + as.numeric(sclmeet) + 
##     hinctnta, data = ESS2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -19.2143  -6.5756   0.3372   5.6742  30.3210 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         21.82124    1.20725  18.075  < 2e-16 ***
## as.numeric(domicil) -0.48012    0.19312  -2.486  0.01303 *  
## as.numeric(sclmeet) -0.35911    0.16569  -2.167  0.03038 *  
## hinctnta            -0.20429    0.07779  -2.626  0.00873 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.365 on 1401 degrees of freedom
## Multiple R-squared:  0.01213,    Adjusted R-squared:  0.01001 
## F-statistic: 5.733 on 3 and 1401 DF,  p-value: 0.000674
sjt.lm(model12, show.ci = F)
    nwspol
    B p
(Intercept)   21.82 <.001
as.numeric(domicil)   -0.48 .013
as.numeric(sclmeet)   -0.36 .030
hinctnta   -0.20 .009
Observations   1405
R2 / adj. R2   .012 / .010

Результаты модели: F-statistic значима, т.к. p-value = 0.000674, значит модель объясняет данные и R^2 больше нуля (0.01001), т.е. модель объясняет примерно 1% данных. p-value для коэффициентов значимо для переменной частоты встреч(p-value = 0.03038) и местожительства(p-value = 0.01303) и дохода(p-value = 0.00873). t value по модулю больше двух для переменных частоты встреч (t value = -2.167) и местожительства (t value = -2.486) и дохода (t value = -2.626), значит коэффициенты отличны от нуля. Коэффициент а = 21.82124 , b1 = -0.35911, b2 = -0.48012, b3 = -0.20429, уравнение регрессии: nwspol = –0.35911sclmeet - 0.48012domicil - 0.20429hinctnta + 21.82124;

ANOVA 5

H0: две модели не отличаются друг от друга

anova(model5, model12)
anova(model10, model12)

Результаты anova 5: В первом случае для модели 5 и модели 12, p-value = 0.005473, сл-но значимо, поэтому модели значимо различаются и модель 12 лучше описывает данные. Во втором случае для модели 10 и модели 12, p-value = 0.00873, сл-но значимо, поэтому модели значимо различаются и модель 12 лучше описывает данные, поэтому переменную (hinctnta) стоит оставить в модели.

Общая модель

Model0: Включает все предикторы
model0 <- lm(nwspol ~ agea_c + gndr + eduyrs + hinctnta + wkhtot + as.numeric(sclmeet)  + as.numeric(domicil), data = ESS2)
summary(model0)
## 
## Call:
## lm(formula = nwspol ~ agea_c + gndr + eduyrs + hinctnta + wkhtot + 
##     as.numeric(sclmeet) + as.numeric(domicil), data = ESS2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -22.482  -5.510  -0.579   5.050  32.178 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         17.92850    1.48735  12.054  < 2e-16 ***
## agea_c               0.17850    0.01222  14.603  < 2e-16 ***
## gndrFemale          -0.60450    0.42285  -1.430 0.153064    
## eduyrs               0.14980    0.06390   2.344 0.019200 *  
## hinctnta            -0.08546    0.07808  -1.095 0.273883    
## wkhtot              -0.01996    0.01857  -1.075 0.282672    
## as.numeric(sclmeet)  0.09595    0.15758   0.609 0.542681    
## as.numeric(domicil) -0.61677    0.18476  -3.338 0.000865 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.796 on 1397 degrees of freedom
## Multiple R-squared:  0.1444, Adjusted R-squared:  0.1401 
## F-statistic: 33.68 on 7 and 1397 DF,  p-value: < 2.2e-16

Результаты общей модели: F-statistic значима, т.к. p-value = 0.00000000000000022, значит модель объясняет данные и R^2 больше нуля (0.1401), т.е. модель объясняет примерно 14% данных. p-value для коэффициентов значимо для переменной возраста(p-value = 0.0000000000000002) и образоания(p-value = 0.019200) и местожительства(p-value = 0.000865). t value по модулю больше двух для переменных возраста (t value = 14.603) и местожительства (t value = -3.338) и образования (t value = 2.344), значит коэффициенты отличны от нуля. Коэффициент а = 17.92850 , b1 = 0.17850, b2 = 0.14980, b3 = -0.61677, уравнение регрессии: nwspol = 0.17850agea_c + 0.14980eduyrs - 0.61677domicil + 21.82124;

Сделаем таблицу по нашей модели:

#table
library(stargazer)
stargazer(model0, type = "text", title = "Regression results for model0")
## 
## Regression results for model0
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                               nwspol           
## -----------------------------------------------
## agea_c                       0.179***          
##                               (0.012)          
##                                                
## gndrFemale                    -0.605           
##                               (0.423)          
##                                                
## eduyrs                        0.150**          
##                               (0.064)          
##                                                
## hinctnta                      -0.085           
##                               (0.078)          
##                                                
## wkhtot                        -0.020           
##                               (0.019)          
##                                                
## as.numeric(sclmeet)            0.096           
##                               (0.158)          
##                                                
## as.numeric(domicil)          -0.617***         
##                               (0.185)          
##                                                
## Constant                     17.928***         
##                               (1.487)          
##                                                
## -----------------------------------------------
## Observations                   1,405           
## R2                             0.144           
## Adjusted R2                    0.140           
## Residual Std. Error      7.796 (df = 1397)     
## F Statistic          33.677*** (df = 7; 1397)  
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01
library(sjPlot)
sjt.lm(model0, show.ci = F)
    nwspol
    B p
(Intercept)   17.93 <.001
agea_c   0.18 <.001
gndr (Female)   -0.60 .153
eduyrs   0.15 .019
hinctnta   -0.09 .274
wkhtot   -0.02 .283
as.numeric(sclmeet)   0.10 .543
as.numeric(domicil)   -0.62 <.001
Observations   1405
R2 / adj. R2   .144 / .140

В полной модели значимость имеют переменные: возраст, количество лет образования, местопроживания. Исходя из результатов общей модели, образование значимо (хотя индивидульно оно не влияет зависимую переменную), также исчезла значимость дохода и частоты встреч. Поэтому мы хотим проверить переменную образования в моделях с другими значимыми переменными.

Model 9: Влияют ли вместе переменные социальной активности и количестов лет, потраченных на образоание, на время, потраченное на просмотр новостей
model9 <- lm(nwspol ~ eduyrs_c + as.numeric(sclmeet), data = ESS2)
summary(model9)
## 
## Call:
## lm(formula = nwspol ~ eduyrs_c + as.numeric(sclmeet), data = ESS2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -17.6722  -6.4539   0.5597   5.8715  31.5113 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         19.20477    0.93797  20.475   <2e-16 ***
## eduyrs_c            -0.04843    0.06167  -0.785   0.4324    
## as.numeric(sclmeet) -0.37380    0.16560  -2.257   0.0241 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.396 on 1402 degrees of freedom
## Multiple R-squared:  0.004197,   Adjusted R-squared:  0.002777 
## F-statistic: 2.955 on 2 and 1402 DF,  p-value: 0.05241
sjt.lm(model9, show.ci = F)
    nwspol
    B p
(Intercept)   19.20 <.001
eduyrs_c   -0.05 .432
as.numeric(sclmeet)   -0.37 .024
Observations   1405
R2 / adj. R2   .004 / .003

Результаты модели: F-statistic значима, т.к. p-value = 0.05241, значит модель объясняет данные и R^2 больше нуля (0.002777), т.е. модель объясняет примерно 0.3% данных. p-value для коэффициентов значимо только для переменной частоты встреч (p-value = 0.0241). t value по модулю больше двух тоже только для переменной частоты встреч, значит коэффициенты отличны от нуля. Коэффициент а = 19.20477 , b = -0.37380, уравнение регрессии: nwspol = 0.37380sclmeet + 19.20477; * Таким образом при увеличении количества встреч с друзьями (переход из одной категории “never” в последующую “less then once a month” и т.д.) просмотр новостей будет уменьшаться на -0.37380 минут.*

ANOVA 2

H0: две модели не отличаются друг от друга

anova(model2_1, model9)
anova(model7, model9)

Результаты anova 2: В первом случае для модели 2_1 и модели 9, p-value = 0.02414, сл-но значимо, поэтому модели различаются и модель 9 описывает данные лучше. Во втором случае для модели 7 и модели 9, p-value = 0.4324, сл-но незначимо, значит модели значимо не отличаются, поэтому перменную (eduyrs_c) не стоит добавлять в данную модель.

Model 11: влияют ли вместе переменные социальной активности, местопроживания и количество лет, потраченых на образование на время, потраченное на просмотр новостей
model11 <- lm(nwspol ~ as.numeric(domicil) + as.numeric(sclmeet) + eduyrs_c, data = ESS2)
summary(model11)
## 
## Call:
## lm(formula = nwspol ~ as.numeric(domicil) + as.numeric(sclmeet) + 
##     eduyrs_c, data = ESS2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -18.821  -6.521   0.479   5.660  30.714 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         20.71724    1.11893  18.515   <2e-16 ***
## as.numeric(domicil) -0.48786    0.19763  -2.469   0.0137 *  
## as.numeric(sclmeet) -0.39020    0.16543  -2.359   0.0185 *  
## eduyrs_c            -0.08386    0.06321  -1.327   0.1848    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.38 on 1401 degrees of freedom
## Multiple R-squared:  0.00851,    Adjusted R-squared:  0.006387 
## F-statistic: 4.008 on 3 and 1401 DF,  p-value: 0.007459
sjt.lm(model11, show.ci = F)
    nwspol
    B p
(Intercept)   20.72 <.001
as.numeric(domicil)   -0.49 .014
as.numeric(sclmeet)   -0.39 .018
eduyrs_c   -0.08 .185
Observations   1405
R2 / adj. R2   .009 / .006

Результаты модели: F-statistic значима, т.к. p-value = 0.007459, значит модель объясняет данные и R^2 больше нуля (0.006387), т.е. модель объясняет примерно 0.6% данных. p-value для коэффициентов значимо только для переменной частоты встреч(p-value = 0.0185) и местожительства(p-value = 0.0137). t value по модулю больше двух для переменных частоты встреч (t value = -2.359) и местожительства (t value = -2.469), значит коэффициенты отличны от нуля. Коэффициент а = 20.71724 , b1 = -0.39020, b2 = -0.48786, уравнение регрессии: nwspol = -0.39020sclmeet - 0.48786domicil + 20.71724;

ANOVA 4

H0: две модели не отличаются друг от друга

anova(model2_1, model11)
anova(model10, model11)

Результаты anova 4: В первом случае для модели 2_1 и модели 11, p-value = 0.003767, сл-но значимо, поэтому модели значимо различаются и модель 11 лучше описывает данные. Во втором случае для модели 11 и модели 10, p-value = 0.1848, сл-но незначимо, поэтому модели значимо не различаются, поэтому переменную (eduyrs_c) не стоит оставлять в модели.

** Model13:** Влияют ли вместе переменные количества лет, затраченного на образование и возраста на время, потраченное на просмотр новостей
model13 <- lm(nwspol ~ eduyrs_c + agea_c, data = ESS2)
summary(model13)
## 
## Call:
## lm(formula = nwspol ~ eduyrs_c + agea_c, data = ESS2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -20.855  -5.510  -0.685   5.230  33.504 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 17.14875    0.20883  82.119  < 2e-16 ***
## eduyrs_c     0.15737    0.05921   2.658  0.00796 ** 
## agea_c       0.17423    0.01183  14.722  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.828 on 1402 degrees of freedom
## Multiple R-squared:  0.1344, Adjusted R-squared:  0.1332 
## F-statistic: 108.8 on 2 and 1402 DF,  p-value: < 2.2e-16
sjt.lm(model13, show.ci = F)
    nwspol
    B p
(Intercept)   17.15 <.001
eduyrs_c   0.16 .008
agea_c   0.17 <.001
Observations   1405
R2 / adj. R2   .134 / .133

Результаты модели: F-statistic значима, т.к. p-value < 0.00000000000000022, значит модель объясняет данные и R^2 больше нуля (0.1332), т.е. модель объясняет примерно 13% данных. p-value для коэффициентов значимо для переменной образования(p-value = 0.00796) и возраста(p-value = 0.0000000000000002). t value по модулю больше двух для переменных образования (t value = 2.658) и возраста (t value = 14.722), значит коэффициенты отличны от нуля. Коэффициент а = 17.14875 , b1 = 0.15737, b2 = 0.17423, уравнение регрессии: nwspol = 0.15737eduyrs_c + 0.17423agea_c + 17.14875;

ANOVA 6

H0: две модели не отличаются друг от друга

anova(model2_1, model13)
anova(model1_1, model13)

Результаты anova 6: В первом случае для модели 2_1 и модели 13, p-value < 0.00000000000000022, сл-но значимо, поэтому модели значимо различаются и модель 13 лучше описывает данные, сл-но переменную возраста нужно оставить в модели. Во втором случае для модели 1_1 и модели 13, p-value = 0.007957, сл-но значимо, поэтому модели значимо различаются и модель 13 лучше описывает данные, поэтому переменную (eduyrs_c) стоит оставить в модели.

По моделям включающим переменную образования можно сделать вывод, что она значима в присутствии переменной возраста и их нужно рассматривать в моделях вместе.

Conclusions

Наши гипотезы подтвердились:

чем больше возраст, тем больше заинтересованность в новостях (просмотр новостей)

чем меньше населенный пункт, тем меньше время,потреченное на новости

чем чаще респондент видится с друзьями/коллегами/родственниками, тем меньше времени он тратит на новости.

Project 5

Проект на линейную регрессию с интеракционным эффектом между предикторами.

RQ & Hypotheses

Research question:

RQ: “Какие факторы могут влиять на количество времени, которое человек проводит за просмотром или прочтением новостей политики?”

Hypotheses

H1: Чем ниже доход респондента и чем реже респондент встречается с друзьями, тем меньше времени он/она читает или смотрит новости политики. В статье Jimmy Szewczyk о политическом участии есть ряд утверждений, которые дали нам основания для выдвижения первой гипотезы. Он пишет, что высокий статус индивида является его ресурсом, который способствует высокому уровню вовлеченности в политическую жизнь: голосования, обсуждения, чтения новостей. Доход является одним из показателей статуса, по мнению автора. Поэтому неравенство по доходам создает условия, при которых низкий статус индивида впоследствии вовсе отлучает его от политического участия. Он же утверждает, что социальное доверие – это чувство вовлеченности в жизнь общества и согласие с ценностями этого общества. Поэтому от снижения социального доверия сильно зависит с снижение уровня политического участия. Мы предполагаем, что подобное социальное доверие тесно связано с социальной вовлеченностью индивида (с количеством дружественных встреч).

H2: Чем старше респондент и чем чаще встречается с друзьями и знакомыми, тем больше времени проводит за чтением или просмотром новостей политики. Наша гипотеза основывается на результатах ранее проводимых в России исследованиях: во-первых, опрос ВЦИОМа 2017 года показал, что молодежь (18-24) интересуется политикой намного меньше, чем представители остальных поколений. Также, согласно исследованиям Левада-центра, интерес к политике люди начинают проявлять после 25 лет.

Vizualisation

Распределение зависимой переменной (outcome var-e) - Time spend watching, reading or listening to news about politics and current affairs on a typical day

Как мы уже проверяли в предыдущем проекте, данная переменная ненормально распределена (по тесту Шапира), однако ее форма достаточно близка к нормальной

plot(as.factor(ESS2$nwspol), xlab = "Time(min)", ylab = "Number of people", main = "Variable - Time spend watching, reading or listening to news about politics and current affairs on a typical day" , col = "cornflowerblue")

H0: The distribution of nwspol(Time spend on news about politics) does not differ from normal distribution.

H1: The distribution of nwspol(Time spend on news about politics) differs from normal distribution.

shapiro.test(ESS2$nwspol)
## 
##  Shapiro-Wilk normality test
## 
## data:  ESS2$nwspol
## W = 0.95905, p-value < 2.2e-16

По тесту Шапира, p-value значимо (p-value < 0.00000000000000022), следовательно мы отвергаем нулевую гипотезу, значит распределение не нормальное.

Далее посмотрим на наши предикторы:

  • частота встреч с близкими и знакомыми (sclmeet)
  • доход (hinctnta)
  • возраст (agea)
plot(ESS2$sclmeet,  xlab = "Frequency of meetings", ylab = "Number of people", main = "Variable - How often socially meet with friends, relatives or colleagues" , col = c("lightcyan", "slategray1", "slategray2", "slategray3", "slategrey", "skyblue4", "darkslategray"))

plot(as.factor(ESS2$hinctnta),  xlab = "Income(crown)", ylab = "Number of people", main = "Variable - Household's total net income, all sources" , col = c("gray100", "gray90", "gray80", "gray70", "gray60", "gray50", "gray40", "gray30", "gray20", "gray10"))

plot(as.factor(ESS2$agea),   xlab = "Years", ylab = "Number of people", main = "Variable - Age of respondent", col = "darkseagreen")

#correlation
ggplot()+
geom_point(data= ESS2, aes(x = as.numeric(sclmeet), y = agea), fill= "lightpink3", color= "lightpink3")+
  xlab("How often socially meet with friends, relatives or colleagues")+
  ylab("Age of respondents")+
  ggtitle("Завсимость частоты встреч с близкими от возраста человека")

ggplot()+
geom_point(data= ESS2, aes(x = hinctnta, y = agea), fill= "lightpink3", color= "lightpink3")+
  xlab("Income (decile)")+
  ylab("Age of respondents")+
  ggtitle("Зависимость дохода от возраста")

#кореляция между количественными предикторами около 20%
cor(ESS2$hinctnta, ESS2$agea)
## [1] -0.1809784
cor(as.numeric(ESS2$sclmeet), ESS2$agea)
## [1] -0.2078185

Regression & Interaction

Model 10 & Model 18: Влияют ли вместе переменные социальной активности и дохода на время, потраченное на просмотр новостей
#удаление категории ответов "Never" из переменной частоты встреч, т.к. она сильно портила R^
ESS2$sclmeet_1 <- droplevels(ESS2$sclmeet, exclude = "Never")
#перменная частота встреч в формате continuous
ESS2$sclmeet_1n <- as.numeric(ESS2$sclmeet_1)

#без интеракции
model10 <- lm(nwspol ~ hinctnta + sclmeet_1n, data = ESS2)
summary(model10)
## 
## Call:
## lm(formula = nwspol ~ hinctnta + sclmeet_1n, data = ESS2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -18.3215  -6.6113   0.3887   5.6262  31.1986 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 20.08153    0.90019  22.308   <2e-16 ***
## hinctnta    -0.19006    0.07786  -2.441   0.0148 *  
## sclmeet_1n  -0.37992    0.16919  -2.245   0.0249 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.383 on 1397 degrees of freedom
##   (5 observations deleted due to missingness)
## Multiple R-squared:  0.008587,   Adjusted R-squared:  0.007167 
## F-statistic:  6.05 on 2 and 1397 DF,  p-value: 0.002421
#с интеракционным эффектом
model18 <- lm(nwspol ~ hinctnta * sclmeet_1n, data = ESS2)
summary(model18)
## 
## Call:
## lm(formula = nwspol ~ hinctnta * sclmeet_1n, data = ESS2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -18.8236  -6.4113   0.5215   5.8077  31.2045 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         21.05065    1.81423  11.603   <2e-16 ***
## hinctnta            -0.35042    0.27200  -1.288    0.198    
## sclmeet_1n          -0.59727    0.39169  -1.525    0.128    
## hinctnta:sclmeet_1n  0.03551    0.05771   0.615    0.538    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.385 on 1396 degrees of freedom
##   (5 observations deleted due to missingness)
## Multiple R-squared:  0.008855,   Adjusted R-squared:  0.006725 
## F-statistic: 4.157 on 3 and 1396 DF,  p-value: 0.00607
#таблица по моделям
sjt.lm(model10, model18, show.ci = F, group.pred = FALSE)
    nwspol   nwspol
    B p   B p
(Intercept)   20.08 <.001   21.05 <.001
hinctnta   -0.19 .015   -0.35 .198
sclmeet_1n   -0.38 .025   -0.60 .128
hinctnta:sclmeet_1n     0.04 .538
Observations   1400   1400
R2 / adj. R2   .009 / .007   .009 / .007

Результаты модели: F-statistic значима у обоих моделей, значит модели объясняет данные и R^2 больше нуля. Однако p-value модели 10 меньше (0.002421), чем модели 18 (0.006725). Также Adjusted R-squared модели 10 больше (0.007167, т.е. объясняет примерно 0.72% данных), чем модели 18(0.006725, т.е. объсняет примерно 0.67% данных). Для модели 10 p-value для коэффициентов значим для обоих переменных частоты встреч(p-value = 0.0249) и дохода(p-value = 0.0148). t value по модулю больше двух для переменных частоты встреч (t value = -2.245) и дохода (t value = -2.441), значит коэффициенты отличны от нуля. Коэффициент а = 20.08153 , b1 = -0.19006, b2 = -0.37992, уравнение регрессии для модели 10: nwspol = -0.19006hinctnta - 0.37992sclmeet_1n + 20.08153; Для модели 18 p-value для коэффициентов незначим для обоих переменных частоты встреч(p-value = 0.128) и дохода(p-value = 0.198), а также для влияния частоты встреч на связь между доходом и просмотром новостей (p-value = 0.538), значит коэффициенты не значимы. уравнение регрессии для модели 18: nwspol = -0.35042hinctnta - 0.59727sclmeet_1n + 0.03551hinctnta х sclmeet_1n + 21.05065***

Anova 10-18

H0: две модели не отличаются друг от друга

anova(model10, model18)

Результаты anova: Для модели 10 и модели 18, p-value = 0.5384573, сл-но незначимо, поэтому модели значимо не отличаются друг от друга, поэтому интеракциооный эффект не стоит включать в модель.

Model 14 & Model 15 & Model 19 & Model 20: Влияют ли вместе переменные социальной активности и возраста на время, потраченное на просмотр новостей

#без интеракции (частота встреч - continuous)
model14 <- lm(nwspol ~ sclmeet_1n + agea_c, data = ESS2)
summary(model14)
## 
## Call:
## lm(formula = nwspol ~ sclmeet_1n + agea_c, data = ESS2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -21.568  -5.661  -0.804   4.999  32.659 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 16.89728    0.75735  22.311   <2e-16 ***
## sclmeet_1n   0.05870    0.16115   0.364    0.716    
## agea_c       0.16844    0.01177  14.315   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.845 on 1397 degrees of freedom
##   (5 observations deleted due to missingness)
## Multiple R-squared:  0.1317, Adjusted R-squared:  0.1305 
## F-statistic:   106 on 2 and 1397 DF,  p-value: < 2.2e-16
#с интеракционным эффектом (частота встреч - continuous)
model15 <- lm(nwspol ~ sclmeet_1n * agea_c, data = ESS2)
summary(model15)
## 
## Call:
## lm(formula = nwspol ~ sclmeet_1n * agea_c, data = ESS2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -23.150  -5.640  -0.849   4.891  31.682 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       16.632732   0.765403  21.731  < 2e-16 ***
## sclmeet_1n         0.094971   0.161729   0.587    0.557    
## agea_c             0.260181   0.042549   6.115 1.25e-09 ***
## sclmeet_1n:agea_c -0.020153   0.008984  -2.243    0.025 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.834 on 1396 degrees of freedom
##   (5 observations deleted due to missingness)
## Multiple R-squared:  0.1348, Adjusted R-squared:  0.133 
## F-statistic: 72.53 on 3 and 1396 DF,  p-value: < 2.2e-16
#без интеракции (частота встреч - categorical)
model19 <- lm(nwspol ~ sclmeet_1 + agea_c, data = ESS2)
summary(model19)
## 
## Call:
## lm(formula = nwspol ~ sclmeet_1 + agea_c, data = ESS2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -22.079  -5.502  -0.805   4.978  32.459 
## 
## Coefficients:
##                                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                    17.38385    1.31133  13.257   <2e-16 ***
## sclmeet_1Once a month          -1.52362    1.60132  -0.951    0.342    
## sclmeet_1Several times a month -0.01506    1.40190  -0.011    0.991    
## sclmeet_1Once a week            0.31110    1.41246   0.220    0.826    
## sclmeet_1Several times a week  -0.66364    1.36371  -0.487    0.627    
## sclmeet_1Every day              0.07353    1.37672   0.053    0.957    
## agea_c                          0.16867    0.01178  14.316   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.843 on 1393 degrees of freedom
##   (5 observations deleted due to missingness)
## Multiple R-squared:  0.1348, Adjusted R-squared:  0.1311 
## F-statistic: 36.18 on 6 and 1393 DF,  p-value: < 2.2e-16
#с интеракционным эффектом (частота встреч - categorical)
model20 <- lm(nwspol ~ sclmeet_1 * agea_c, data = ESS2)
summary(model20)
## 
## Call:
## lm(formula = nwspol ~ sclmeet_1 * agea_c, data = ESS2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -23.3019  -5.5413  -0.6762   4.7619  30.8774 
## 
## Coefficients:
##                                       Estimate Std. Error t value Pr(>|t|)
## (Intercept)                           18.56291    1.46437  12.676   <2e-16
## sclmeet_1Once a month                 -3.23265    1.75924  -1.838   0.0663
## sclmeet_1Several times a month        -1.36080    1.55170  -0.877   0.3807
## sclmeet_1Once a week                  -0.97364    1.55840  -0.625   0.5322
## sclmeet_1Several times a week         -1.84417    1.51081  -1.221   0.2224
## sclmeet_1Every day                    -1.39051    1.52234  -0.913   0.3612
## agea_c                                 0.03653    0.07505   0.487   0.6265
## sclmeet_1Once a month:agea_c           0.22532    0.09383   2.401   0.0165
## sclmeet_1Several times a month:agea_c  0.17638    0.08056   2.189   0.0287
## sclmeet_1Once a week:agea_c            0.17374    0.08049   2.159   0.0310
## sclmeet_1Several times a week:agea_c   0.12829    0.07757   1.654   0.0984
## sclmeet_1Every day:agea_c              0.07892    0.07863   1.004   0.3157
##                                          
## (Intercept)                           ***
## sclmeet_1Once a month                 .  
## sclmeet_1Several times a month           
## sclmeet_1Once a week                     
## sclmeet_1Several times a week            
## sclmeet_1Every day                       
## agea_c                                   
## sclmeet_1Once a month:agea_c          *  
## sclmeet_1Several times a month:agea_c *  
## sclmeet_1Once a week:agea_c           *  
## sclmeet_1Several times a week:agea_c  .  
## sclmeet_1Every day:agea_c                
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.814 on 1388 degrees of freedom
##   (5 observations deleted due to missingness)
## Multiple R-squared:  0.1443, Adjusted R-squared:  0.1375 
## F-statistic: 21.28 on 11 and 1388 DF,  p-value: < 2.2e-16
#Таблица по моделям
sjt.lm(model19, model20,model14, model15, show.ci = F, group.pred = FALSE)
    nwspol   nwspol   nwspol   nwspol
    B p   B p   B p   B p
(Intercept)   17.38 <.001   18.56 <.001   16.90 <.001   16.63 <.001
sclmeet_1Once a month   -1.52 .342   -3.23 .066    
sclmeet_1Several times a month   -0.02 .991   -1.36 .381    
sclmeet_1Once a week   0.31 .826   -0.97 .532    
sclmeet_1Several times a week   -0.66 .627   -1.84 .222    
sclmeet_1Every day   0.07 .957   -1.39 .361    
agea_c   0.17 <.001   0.04 .626   0.17 <.001   0.26 <.001
sclmeet_1Once a month:agea_c     0.23 .016    
sclmeet_1Several times a month:agea_c     0.18 .029    
sclmeet_1Once a week:agea_c     0.17 .031    
sclmeet_1Several times a week:agea_c     0.13 .098    
sclmeet_1Every day:agea_c     0.08 .316    
sclmeet_1n       0.06 .716   0.09 .557
sclmeet_1n:agea_c         -0.02 .025
Observations   1400   1400   1400   1400
R2 / adj. R2   .135 / .131   .144 / .138   .132 / .130   .135 / .133

Вывод: ++ F-statistic значима у обоих моделей, значит модели объясняет данные и R^2 больше нуля. P-value модели 15 равен (< 2.2e-16) p-value модели 14 (< 2.2e-16). Однако, Adjusted R-squared модели 15 больше (0.133, т.е. объясняет примерно 13.3% данных), чем модели 14(0.1305 , т.е. объсняет примерно 13% данных). + Для модели 14 p-value для коэффициентов значим только для переменной возраста (p-value = <2e-16). + t value по модулю больше двух для переменной возраста (t value = 14.315), значит коэффициенты отличны от нуля. Коэффициент а = 16.89728 , b1 = 0.16844, b2 = 0.05870. + уравнение регрессии для модели 14: nwspol = 0.16844(три звездочки значимости)agea_c + 0.05870sclmeet_1n + 16.89728***;

  • Для модели 18 p-value для коэффициентов значим только для переменных возраста(p-value = 1.25e-09(три звездочки значимости)) и интеракции частоты встреч с возрастом(p-value = 0.025*).
  • t value по модулю больше двух для переменной возраста (t value = 6.115), значит коэффициенты отличны от нуля и интеракции частоты встреч с возрастом (t value = -2.243). Коэффициент а = 16.632732 , b1 = 0.260181(три звездочки значимости), b2 = -0.020153*, b3 = 0.09497
  • уравнение регрессии для модели 15: nwspol = 0.260181(три звездочки значимости)agea_c - 0.020153sclmeet_1n х agea_c + 0.094971sclmeet_1n + 16.89728***;

++ F-statistic значима у обоих моделей, значит модели объясняет данные и R^2 больше нуля. P-value модели 19 равен (< 2.2e-16) p-value модели 20 (< 2.2e-16). Однако, Adjusted R-squared модели 20 больше (0.1375, т.е. объясняет примерно 14% данных), чем модели 19 (0.1311 , т.е. объсняет примерно 13.1% данных). + Для модели 19 p-value для коэффициентов значим только для переменной возраста (p-value = <2e-16***). + t value по модулю больше двух для переменной возраста (t value = 14.316), значит коэффициент отличен от нуля.

  • Для модели 20 p-value для коэффициентов значим только для переменных с интеракцией, таким как возраст и встречи раз в месяц(p-value = 0.0165(одна звездочка)), возраст и встречи несколько раз в месяц (p-value = 0.0287(одна звездочка)), возраст и всречи раз в неделю(p-value = 0.0310*).
  • t value по модулю больше двух для переменных с интеракцией, таким как возраст и встречи раз в месяц(t-value = 2.401), возраст и встречи несколько раз в месяц (t-value = 2.189), возраст и всречи раз в неделю(t-value = 2.159). Коэффициент а = 18.56291 , b1 = 0.22532, b2 = 0.17638, b3 = 0.17374
  • уравнение регрессии для модели 20: nwspol = 0.22532agea_c x sclmeet_1Once a month + 0.17638sclmeet_1nSeveral times a month х agea_c + 0.17638agea_c x sclmeet_1Several times a month:agea_c + 0.17374sclmeet_1Once a week x agea_c + 18.56291 + e;

Anova 14-15

H0: две модели не отличаются друг от друга

anova(model14, model15)

Результаты anova: Для модели 14 и модели 15, p-value = 0.02503 *, сл-но значимо, поэтому модели значимо различаются и модель 15 лучше описывает данные, сл-но интеракцию нужно оставить.

Anova 19-20

H0: две модели не отличаются друг от друга

anova(model19, model20)

Результаты anova: Для модели 19 и модели 20, p-value = 0.009215**, сл-но значимо, поэтому модели значимо различаются и модель 20 лучше описывает данные, сл-но интеракцию нужно оставить.

Plots

InteractionPlot

Визуализация модели 18 (интеракция частоты встреч и возраста)

мы понимаем, что модель без интеракции объясняет больше данных, просто визуализируем эту модель для тренировки

sjp.int(model18, type = "eff", show.ci = T)

Вывод по графику 18: Человек с любым доходом (низким или высоким), чем чаще встречается со своими друзьями и знакомыми, тем меньше времени тратит на просмотр новостей. Респонденты с наименьшим доходом (на графике наименьший доход соответствует значению 1, наибольший - 10) тратят больше времени на просмотр новостей политики.

Визуализация модели 15 (интеракция частоты встреч и возраста)

sjp.int(model15, type = "eff", show.ci = T)

Вывод по графику 15: Люди младшего возраста, которые реже встречаются с друзьями, тратят меньше времени на просмотр и прочтение новостей политики, чем сверстники, которые встречаются с друзьями и знакомыми чаще. Чем старше становится человек, который меньше встречается с друзьями, тем больше времени он или она тратит на просмотр новостей, в то время как с возрастом человек, который чаще встречается с друзьями, тратит больше времени на новости политики, чем тот, кто реже встречается со знакомыми.

Визуализация модели 20 (интерекция частоты встреч и возраста)

sjp.int(model20, type = "eff", show.ci = T)

Вывод по графику 20: С возрастом человек больше времени уделяет просмотру и чтению новостей, при этом чем реже человек встречается со знакомыми, тем меньше времени он проводит за прочтением или просмотром новостей. Также из графика видно, что люди, которые реже остальных встречаются со знакомыми (меньше раза в месяц), с возрастом проявляют больший интерес к новостям, но увеличение количества проводимого времени за прочтением или просмотром новостей политики не столь большое, как у других людей.

MarginalPLot

Marginal plot модели 18 (интерекция частоты встреч и возраста)

мы понимаем, что модель без интеракции объясняет больше данных, просто визуализируем эту модель для тренировки

library(rockchalk)
w = plotSlopes(model18, plotx = "hinctnta", 
           modx = "sclmeet_1n", interval = "conf")

plot(testSlopes(w), shade = T)
## Values of sclmeet_1n INSIDE this interval:
##       lo       hi 
## 2.728738 5.135002 
## cause the slope of (b1 + b2*sclmeet_1n)hinctnta to be statistically significant

z = plotSlopes(model18, plotx = "sclmeet_1n", 
           modx = "hinctnta", interval = "conf")

plot(testSlopes(z), shade = T)
## Values of hinctnta INSIDE this interval:
##       lo       hi 
## 2.875836 7.031182 
## cause the slope of (b1 + b2*hinctnta)sclmeet_1n to be statistically significant

Вывод по графикам (18):

Marginal plot модели 20 (интерекция частоты встреч и возраста)

library(rockchalk)
x = plotSlopes(model15, plotx = "agea_c", 
           modx = "sclmeet_1n", interval = "conf")

plot(testSlopes(x), shade = T)
## Values of sclmeet_1n OUTSIDE this interval:
##        lo        hi 
##  8.921774 71.215384 
## cause the slope of (b1 + b2*sclmeet_1n)agea_c to be statistically significant

y = plotSlopes(model15, plotx = "sclmeet_1n", 
           modx = "agea_c", interval = "conf")

plot(testSlopes(y), shade = T)
## Values of agea_c OUTSIDE this interval:
##        lo        hi 
## -19.87761  48.23127 
## cause the slope of (b1 + b2*agea_c)sclmeet_1n to be statistically significant

Conclusion

Мы выяснили, что на количество времени, затрачиваемого на прочтение или просмотр новостей политики влияют такие факторы, как возраст, частота встреч с друзьями и доход. На основании проведенной работы мы можем сделать следующие выводы: с возрастом человек проявляет больший интерес к просмотру и прочтению новостей политики, т.е. проводит больше времени за этим, при этом чем реже человек встречается с друзьями и знакомыми, тем меньше времени он или она проводит за просмотром/прочтением новостей политики. Люди с меньшим доходом тратят больше времени на просмотр и прочтение новостей политики, чем люди с большим доходом, и чем чаще люди с разными доходами встречаются со знакомыми, тем меньше времени они смотрят и читают новости политики. Таким образом, наша первая гипотеза частично опроверглась, а вторая - полностью подтвердилась.