Используем данные из пакета Stat2Data.Их можо найти в интернете , в том числе по ссылке http://stat2.org/manuals/Stat2DataManual.pdf
Посмотрим на данные :
В данном вопросе мы исследуем как масса тела, проблемы со спиной и пол могут повлиять на вес рюкзака, который вы носите)Знакомая ситуация?
Исследователи решили проверить- есть ли связь между массой тела и весом рюкзака. Они построили такой график :
Как вы считаете, есть ли связь между массой тела и массой рюкзака?А какая она? Как вы сделали такие выводы?
model <- lm(backpack_kg ~ body_kg, data = back)
ggplot(data = back,aes(x = body_kg, y = backpack_kg))+
geom_point(alpha = 2,color="red")+
theme(axis.text.x = element_text(size = 8, angle = 90))
Ответ:одним из способов анализа данных может стать линия, проведенная через максимальное количество точек.Именно она станет нашей линией регрессии.
Как вы считаете, есть ли корреляция между такими переменными как вес тела и вес рюкзака, а насколько она сильна?Попробуйте выяснить это -исходя из первого графика.
back %>%
select(body_kg, backpack_kg) %>%
cor()
## body_kg backpack_kg
## body_kg 1.0000000 0.1893312
## backpack_kg 0.1893312 1.0000000
Ответ: Как видим, очень слабая корреляция, по первому графику понятно, что линия наклона будет иметь небольшой угол.
Исследователи построили линию нелинейной регрессии. И получили, такой график.(Третий график)
Как вы считаете, есть ли связь между массой тела и массой рюкзака? А какая она? Как вы сделали такие выводы?
plot(model)
Ответ: так как мы наблюдаем огромное число точек, которые не попали на нашу линию , мы не можем утверждать ничего о наличие взаимосвязи между этими двумя переменными.Если же она есть -то очень слабая.
Ученые на этом не останавливаются и теперь хотят включить в модель еще и наличие заболевания спины и пол :
Влияет ли пол человека на зависимость веса рюкзака, который он носит и его собственным весом ?
ggplot(data=back)+geom_point(aes(x=backpack_kg,body_kg,color=Sex))
Как вы считаете, явялется ли пол значимой переменной для нашей модели? Почему? Как проверить?
Ответ: если мы также проведем две прямые линии, определяя точки по полу(цвету), то обнаружим, что угол наклона линии регрессии для мужчин выше, чем для женщин, поэтому мы можем предположить, что пол имеет значение (имеет в данном случае отрицальную корреляцию для регрессионной модели, так как мужчины отмечаются 0 типом переменной)
Если допустить, что выборка репрезентативна, то можно ли сделать вывод о различии по среднему весу рюкзаков в генеральной совокупности?
Что теперь вы можете сказать о том ,как влияет пол человека на зависимость между весом рюкзака, который он носит, и его собственным весом ?
ggplot(back,aes(x=backpack_kg,fill=Sex, color=Sex))+geom_histogram(aes(y=..density..), position="identity", alpha=0.5) +labs(title="Пол и вес рюкзака",x="вес рюкзака",y="количество")+geom_density(alpha=0.6)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Ответ:как мы видим, женщин в нашей выборке чуть больше, однако вес рюкзаков для них меньше, но ненамного, присутствуют определенные выбросы по весу со стороны мужчин.В целом же мы можем сказать о большем весе мужского рюкзака по стравнению с женским.
Подтвердим это линейной регрессией :
summary(lm(backpack_kg~Sex,data=back))
##
## Call:
## lm(formula = backpack_kg ~ Sex, data = back)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.7274 -2.0059 -0.4701 1.3443 10.2411
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.0060 0.3518 14.228 <2e-16 ***
## SexMale 0.6286 0.5245 1.199 0.234
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.609 on 98 degrees of freedom
## Multiple R-squared: 0.01445, Adjusted R-squared: 0.00439
## F-statistic: 1.436 on 1 and 98 DF, p-value: 0.2336
В среднем вес рюкзака у мужчины на 0.6286 кг больше, чем у женщины.
Теперь исследователи хотят выяснить влияет ли пол и наличие заболевания на вес рюкзака, который носит человек?
Для этого они строят “ящик с усами” .
ggplot(data=back)+geom_boxplot(aes(x=as.factor(BackProblems),y=backpack_kg,color=Sex))+labs(text="Как наличие у студента c проблеми со спиной\nи без влияет на вес его рюкзака?",x="Наличие заболевания спины",y="Вес рюкзака")
Ответ : ящик с усами демонстрирует нам , что люди с заболеванием спины носят рюкзаки с куда большим весом (как мальчики так и девочки) , чем те, у кого заболевания спины нет.Поэтому мы можем утверждать, что тяжесть рюкзака влияет на здоровье спины.
Какие дополнительные исследования вы бы решили провести для более точного ответа?
Ответ: в качестве дополнительных исследований можно поставить и проверить дополнительные гипотезы не только о весе рюкзака ,но и о взаимосвязи факультета на котором учится человек и весом рюкзака, который он носит , а также проанализироватm взаимосвязь между другими переменными , например, годом обучения и весом тела или факультетом и полом.