Hoàng Đăng Khánh - 11192562
Trần Đức Thuận - 11194988
Hoàng Ánh Dương - 11191237
Lê Hà Chi - 11190818
Đào Hương Giang - 11191382
Kỳ Cẩm Nhung - 11194035
23-4-2022
Hoàng Đăng Khánh - 11192562
Trần Đức Thuận - 11194988
Hoàng Ánh Dương - 11191237
Lê Hà Chi - 11190818
Đào Hương Giang - 11191382
Kỳ Cẩm Nhung - 11194035
library("tidyverse") # dplyr, tidyr, ggplot2,...
# Missing data
library("naniar")
library("mice")
# Cluster
library("cluster")
library("factoextra")
# Hồi quy logistics
library("nnet")
Có missing data ở 4 biến là Age, Medal, Height và Height
Giai đoạn từ 1950 - 1960
Giai đoạn từ 2000 - 2016
Có outliers của 2 biến Height và Weight
\(\to\) sử dụng phương pháp K-Medoids để cho ra kết quả tốt hơn.
Sử dụng thuật toán CLARA với cỡ mẫu được lấy là 2000 quan sát
| Height | Weight | |
|---|---|---|
| Cluster 1 | 189 | 88 |
| Cluster 2 | 178 | 71 |
| Cluster 3 | 165 | 57 |
Biến phụ thuộc: Medal
Biến độc lập: Height, Weight, Sex và Age
| (Intercept) | Height | SexM | Age | |
|---|---|---|---|---|
| Bronze | -6.847*** | 0.025*** | -0.375*** | -0.006 |
| Silver | -9.091*** | 0.036*** | -0.594*** | 0.008 |
| Gold | -10.125*** | 0.041*** | -0.624*** | 0.011 |
| (Intercept) | Weight | SexM | Age | |
|---|---|---|---|---|
| Bronze | -3.934*** | 0.023*** | -0.44*** | -0.010 |
| Silver | -4.592*** | 0.027*** | -0.596*** | 0.004 |
| Gold | -4.87*** | 0.03*** | -0.611*** | 0.007 |