Используем данные из пакета Stat2Data

В данном датасете мы исследуем как масса тела, факультет в институте и пол могут В данном вопросе мы исследуем как масса тела, проблемы со спиной и пол могут повлиять на вес сумки который вы носите)Знакомая ситуация? Исследователи решили проверить- есть ли связь между массой тела и весом сумки. Они вывели такую регрессию:

Для анализа используем

model <- lm(backpack_kg ~ body_kg, data = back)

Как вы считаете, есть ли связь между массой тела и массой рюкзака?А какая она? Как вы сделали такие выводы?

ggplot(data = back,aes(x = body_kg, y = backpack_kg))+
  geom_point(alpha = 2,color="red")+ 
  theme(axis.text.x = element_text(size = 8, angle = 90))

Ответ:одним из способов анализа данных может стать линия, проведенная через максимальное количество точек.Именно она станет нашей линией регрессии .

Исследователи провели линию (но не прямую) через максимальное количество точек. И получили, такой график.(Третий график)

Как вы считаете, есть ли связь между массой тела и массой рюкзака?А какая она? Как вы сделали такие выводы?

plot(model)

Ответ: так как мы наблюдаем огромное чило точек, которые не попали на нашу линию мы не можем утверждать ничего о наличие взаимосвязи между этими двумя переменными.Если же она есть -то очень слабая.Зато можем говорить о нормальности распределения наших данных, так как на графике отображено стандаортное нормальное отклонение , а данные распределены почти поровну по красной -линии ограничению, что говорит нам о нормальном распределении. Более подробно можно посмотреть на втором графике.

Ученые на этом не останавливаются и теперь хотят включить в модель еще заболевание и пол : Посмотрите на график и скажите , влияет как-то пол и наличие заболевания на вес рюкзака?

ggplot(data=back)+geom_point(aes(x=backpack_kg,body_kg,color=Sex))

Как вы считаете, явялется ли пол значимой переменной для нашей модели? Почему? Как проверить?

Ответ: если мы также проведем две прямые линии определяя точки по полу(цвету), то обнаружим, что угол наклона динии регрессии для мужчин выше, чем для женщин, поэтому мы можем предположить, что пол имеет значении (имеет в данном случае отрицальную корреляцию для регрессионной модели, так как мужчины отмечаются 0)

Если допустить, что выборка репрезентативна, то можно ли сделать вывод о различии по среднему весу рюкзаков в генеральной совокупности?

Что теперь вы можете сказать о зависимости пола и весом рюкзака?

ggplot(back,aes(x=backpack_kg,fill=Sex, color=Sex))+geom_histogram(aes(y=..density..), position="identity", alpha=0.5) +labs(title="Пол и вес рюкзака",x="вес рюкзака",y="количество")+geom_density(alpha=0.6)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Ответ:как мы видим, женщин в нашей выборке чуть больше, однако вес рюкзаков для них меньше, но не намного, присутсьвуют определенные выбросы по весу сос тороны мужчин.В целом мы можем сказать о большем весе мужского рюкзака.

Теперь исследователи хотят выяснить - как наличие у студента c проблеми со спиной и без влияет на вес его рюкзака? Для этого они строят “ящик с усами” .

ggplot(data=back)+geom_boxplot(aes(x=as.factor(BackProblems),y=backpack_kg,color=Sex))+labs(text="Как наличие у студента c проблеми со спиной\nи без влияет на вес его рюкзака?",x="Наличие заболевания спины",y="Вес рюкзака")

Ответ : ящик с усами демонстрирует нам , что люди с заболеванием спины носят рюкзаки с куда большим весом (как мальчики так и девочки) , чем те, у кого заболевания спины нет.Поэтому мы можем утверждать, чтотяжесть рюкзака влияет на здоровье спины.

Как вы считаете, есть ли корреляция между такими переменными как вес тела и вес рюкзака, а насколько она сильна?Попробуйте выяснить это -исходя из первого графика.

back %>%
  select(body_kg, backpack_kg) %>%
  cor()
##               body_kg backpack_kg
## body_kg     1.0000000   0.1893312
## backpack_kg 0.1893312   1.0000000

Ответ: Как видим, очень слабая корреляция, по первоме графику понятно- что линия наклона будет иметь небольшой угол.