Набор Palmer Penguins: измерения пингвинов (Adélie, Chinstrap, Gentoo) с различных островов Антарктики. Основные столбцы: species, island, bill_length_mm, bill_depth_mm, flipper_length_mm, body_mass_g, sex, year.
Boxplot по видам/полу (после группового заполнения):
ggplot(filter(penguins_group_med, !is.na(sex)), aes(x=species, y=body_mass_g, fill=sex)) +geom_boxplot() +labs(title="Body mass по species и sex") +theme_minimal()
ggsave("plot_boxplot.png")
Saving 7 x 5 in image
ggsave("plot_hist_mediana.png")
Saving 7 x 5 in image
4. Выводы
drop_na удаляет строки с NA и уменьшает выборку, медиана сохраняет данные.
Заполнение модой опасно при большом числе пропусков — может исказить статистику.
Для оценки эффективности используются гистограммы, boxplot, визуализация пропусков
случайные пропуски (MCAR), зависящие от наблюдаемых переменных (MAR), или неслучайные (MNAR)
сохранены гистограма заполнения медианой и boxplot после группового заполнения