Практикум 4. Решения.

Если нужные для практикума библиотеки не установлены, установите их:

install.packages("psych")
install.packages("ggplot2")
  1. Загрузите файл rooms.csv со страницы курса и сохраните его в датафрейм rooms.
rooms <- read.csv("https://vincentarelbundock.github.io/Rdatasets/csv/HSAUR/roomwidth.csv")
  1. Используя библиотеку psych, выведите описательные статистики для показателя ширина аудитории, отдельно для случаев, когда ширина была измерена в метрах, и для случаев, когда ширина была измерена в футах. Проинтерпретируйте полученные результаты.
library(psych)
describeBy(rooms$width, group = rooms$unit)
## 
##  Descriptive statistics by group 
## group: feet
##    vars  n mean   sd median trimmed mad min max range skew kurtosis  se
## X1    1 69 43.7 12.5     42   42.23 8.9  24  94    70  1.5      3.3 1.5
## -------------------------------------------------------- 
## group: metres
##    vars  n  mean   sd median trimmed  mad min max range skew kurtosis   se
## X1    1 44 16.02 7.14     15   14.67 4.45   8  40    32 1.91      3.4 1.08
  1. Используя возможности библиотеки ggplot2, постройте гистограмму с шагом 2 для показателя ширина аудитории, отдельно для случаев, когда ширина была измерена в метрах, и для случаев, когда ширина была измерена в футах. Устраиваивает ли вас предложенный шаг у гистограммы? Если нет, то исправьте его. Похоже ли распределение в какой-нибудь из групп на нормальное?
library(ggplot2)
ggplot(data = rooms, aes(x = width)) + 
  geom_histogram(binwidth = 2, fill = "lightblue", color = "darkblue") +
  facet_wrap(~unit)

Шаг слишком маленький, на графике образуются «дыры». Поменяем на 5, например:

ggplot(data = rooms, aes(x = width)) + 
  geom_histogram(binwidth = 5, fill = "lightblue", color = "darkblue") +
  facet_wrap(~unit)

Распределение в обеих группах не похоже на нормальное: в обеих случаях графики несимметричны и скошены вправо (длинные «хвосты» справа).

Заодно посмотрим на графики плотности:

ggplot(data = rooms, aes(x = width)) + 
  geom_density(fill = "red", color = "black") +
  facet_wrap(~unit)

  1. Постройте нормальную вероятностную бумагу для показателя ширина аудитории, отдельно для случаев, когда ширина была измерена в метрах, и для случаев, когда ширина была измерена в футах. Похоже ли распределение в какой-нибудь из групп на нормальное?
ggplot(data = rooms, aes(sample = width)) + stat_qq() + stat_qq_line()

Нет, не похоже, так как есть сильно отклоняющиеся точки от прямой, соответствующей функции нормального распределения.