Если нужные для практикума библиотеки не установлены, установите их:
install.packages("psych")
install.packages("ggplot2")
rooms.csv
со страницы курса и сохраните его в датафрейм rooms
.rooms <- read.csv("https://vincentarelbundock.github.io/Rdatasets/csv/HSAUR/roomwidth.csv")
psych
, выведите описательные статистики для показателя ширина аудитории, отдельно для случаев, когда ширина была измерена в метрах, и для случаев, когда ширина была измерена в футах. Проинтерпретируйте полученные результаты.library(psych)
describeBy(rooms$width, group = rooms$unit)
##
## Descriptive statistics by group
## group: feet
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 69 43.7 12.5 42 42.23 8.9 24 94 70 1.5 3.3 1.5
## --------------------------------------------------------
## group: metres
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 44 16.02 7.14 15 14.67 4.45 8 40 32 1.91 3.4 1.08
ggplot2
, постройте гистограмму с шагом 2 для показателя ширина аудитории, отдельно для случаев, когда ширина была измерена в метрах, и для случаев, когда ширина была измерена в футах. Устраиваивает ли вас предложенный шаг у гистограммы? Если нет, то исправьте его. Похоже ли распределение в какой-нибудь из групп на нормальное?library(ggplot2)
ggplot(data = rooms, aes(x = width)) +
geom_histogram(binwidth = 2, fill = "lightblue", color = "darkblue") +
facet_wrap(~unit)
Шаг слишком маленький, на графике образуются «дыры». Поменяем на 5, например:
ggplot(data = rooms, aes(x = width)) +
geom_histogram(binwidth = 5, fill = "lightblue", color = "darkblue") +
facet_wrap(~unit)
Распределение в обеих группах не похоже на нормальное: в обеих случаях графики несимметричны и скошены вправо (длинные «хвосты» справа).
Заодно посмотрим на графики плотности:
ggplot(data = rooms, aes(x = width)) +
geom_density(fill = "red", color = "black") +
facet_wrap(~unit)
ggplot(data = rooms, aes(sample = width)) + stat_qq() + stat_qq_line()
Нет, не похоже, так как есть сильно отклоняющиеся точки от прямой, соответствующей функции нормального распределения.