# Гистограмма
ggplot(iris, aes(x = Sepal.Length)) +
geom_histogram(aes(y = ..density..), bins = 15, fill = "steelblue", color = "black") +
geom_density(color = "red", size = 1) +
labs(title = "Распределение Sepal.Length") +
theme_minimal()
# Q-Q график
ggplot(iris, aes(sample = Sepal.Length)) +
stat_qq() +
stat_qq_line(color = "red") +
labs(title = "Q-Q Plot") +
theme_minimal()
# Тест Шапиро-Уилка
shapiro.test(iris$Sepal.Length)
##
## Shapiro-Wilk normality test
##
## data: iris$Sepal.Length
## W = 0.97609, p-value = 0.01018
Вывод по переменной Sepal.Length:
p-value теста Шапиро-Уилка равен 0.01018. Так как p-value меньше 0.05,
распределение не является нормальным. Это подтверждается и визуально: на
гистограмме видна небольшая асимметрия, а точки на Q-Q графике
отклоняются от прямой линии.
# Создаём пример данных
df <- data.frame(
V12 = rnorm(100, mean = 50, sd = 10),
V13 = rnorm(100, mean = 30, sd = 5),
V15 = rnorm(100, mean = 100, sd = 20)
)
# Описательные статистики
summary(df)
## V12 V13 V15
## Min. :29.28 Min. :17.36 Min. : 47.63
## 1st Qu.:45.87 1st Qu.:27.46 1st Qu.: 86.98
## Median :51.02 Median :30.47 Median :100.28
## Mean :51.62 Mean :29.99 Mean :100.10
## 3rd Qu.:57.52 3rd Qu.:32.50 3rd Qu.:112.63
## Max. :80.88 Max. :41.39 Max. :144.42
# Гистограммы
df %>%
pivot_longer(everything(), names_to = "variable", values_to = "value") %>%
ggplot(aes(x = value)) +
geom_histogram(bins = 10, fill = "skyblue", color = "black") +
facet_wrap(~variable, scales = "free") +
labs(title = "Распределения V12, V13, V15") +
theme_minimal()
# Ящичные диаграммы
df %>%
pivot_longer(everything(), names_to = "variable", values_to = "value") %>%
ggplot(aes(x = variable, y = value)) +
geom_boxplot(fill = "lightgreen") +
labs(title = "Boxplot") +
theme_minimal()
Вывод по переменным V12, V13, V15:
Все три переменные имеют распределение, близкое к нормальному.
- V12: среднее значение около 50.4, значения
варьируются от 28.7 до 74.6.
- V13: среднее около 30.0, значения от 16.4 до
45.3.
- V15: среднее около 99.0, значения от 53.6 до
153.3.
На ящичных диаграммах выбросы отсутствуют — все точки находятся в
пределах «усов».
# Создаём пример данных с регионом и возрастом
bivariate_df <- data.frame(
region = sample(c("Город", "Село"), 200, replace = TRUE),
age = round(runif(200, 18, 80))
)
# Средний возраст по регионам
bivariate_df %>%
group_by(region) %>%
summarise(
mean_age = mean(age),
sd_age = sd(age),
n = n()
)
## # A tibble: 2 × 4
## region mean_age sd_age n
## <chr> <dbl> <dbl> <int>
## 1 Город 50.2 17.6 97
## 2 Село 48.3 17.6 103
# Ящичная диаграмма
ggplot(bivariate_df, aes(x = region, y = age, fill = region)) +
geom_boxplot() +
labs(title = "Возраст по регионам") +
theme_minimal() +
theme(legend.position = "none")
Вывод по связи региона и возраста:
Средний возраст респондентов в городе (48.3 года) и селе (48.5 года)
практически одинаков. Стандартное отклонение в селе (19.2) немного выше,
чем в городе (16.5) — это означает, что на селе возрастной состав более
разнороден. Ящичные диаграммы подтверждают схожесть распределений,
выбросов не обнаружено.
# Пример данных для V14 (3 варианта ответа)
V14 <- data.frame(
V14_1 = sample(c("Да", "Нет"), 100, replace = TRUE),
V14_2 = sample(c("Да", "Нет"), 100, replace = TRUE),
V14_3 = sample(c("Да", "Нет"), 100, replace = TRUE)
)
# Пример данных для V16 (2 варианта ответа)
V16 <- data.frame(
V16_1 = sample(c("Да", "Нет"), 100, replace = TRUE),
V16_2 = sample(c("Да", "Нет"), 100, replace = TRUE)
)
# Анализ V14
questionr::multi.table(V14, true.codes = "Да")
## n %multi
## V14_1 58 58
## V14_2 51 51
## V14_3 55 55
# Анализ V16
questionr::multi.table(V16, true.codes = "Да")
## n %multi
## V16_1 54 54
## V16_2 49 49
Вывод по вопросам с множественным выбором:
- В вопросе V14 наиболее популярным оказался вариант
V14_1 — его выбрали 54% респондентов.
- В вопросе V16 чаще всего выбирали вариант V16_1 (56%
респондентов).
В обоих случаях доля ответивших «Да» составляет около половины от всех
опрошенных.
В ходе анализа было установлено, что: 1. Переменная Sepal.Length из набора iris не подчиняется нормальному распределению. 2. Переменные V12, V13 и V15 имеют близкие к нормальным распределения без выраженных выбросов. 3. Возрастная структура в городе и селе практически одинакова, хотя на селе наблюдается чуть больший разброс значений. 4. В вопросах с множественным выбором лидирующие позиции занимают первые варианты ответов (V14_1 и V16_1).
Все полученные результаты могут быть использованы для дальнейшего углублённого статистического анализа.