23-4-2022

Thành viên nhóm 4

  1. Hoàng Đăng Khánh - 11192562

  2. Trần Đức Thuận - 11194988

  3. Hoàng Ánh Dương - 11191237

  4. Lê Hà Chi - 11190818

  5. Đào Hương Giang - 11191382

  6. Kỳ Cẩm Nhung - 11194035

1. Giới thiệu chung

1.1. Packages được sử dụng

library("tidyverse") # dplyr, tidyr, ggplot2,...

# Missing data
library("naniar")
library("mice")

# Cluster
library("cluster")
library("factoextra")

# Hồi quy logistics
library("nnet")

1.2. Dữ liệu

1.3. Missing data

Có missing data ở 4 biến là Age, Medal, HeightHeight

2. Tổng quan về Olympics

2.1. Ở Olympics người ta thi gì?

2.2. Số năm được xuất hiện và số nội dung thi đấu

2.2. Số năm được xuất hiện và số nội dung thi đấu

2.3. Sự tham gia của các nước

2.3. Sự tham gia của các nước

2.4. Bình đẳng giới tại thế vận hội mùa hè

2.5. Thành tích của các quốc gia (TVH mùa hè)

Giai đoạn từ 1950 - 1960

2.5. Thành tích của các quốc gia (TVH mùa hè)

Giai đoạn từ 2000 - 2016

2.5. Thành tích của các quốc gia (TVH mùa hè)

2.5. Thành tích của các quốc gia (TVH mùa hè)

4. Phân cụm

4.1. Kiểm tra outliers

outliers của 2 biến HeightWeight

\(\to\) sử dụng phương pháp K-Medoids để cho ra kết quả tốt hơn.

4.1. Kiểm tra outliers

4.2. Xử lý missing data

4.3. Số lượng cụm tối ưu

4.3. Số lượng cụm tối ưu

4.4. CLARA

Sử dụng thuật toán CLARA với cỡ mẫu được lấy là 2000 quan sát

Height Weight
Cluster 1 189 88
Cluster 2 178 71
Cluster 3 165 57

4.4. CLARA

4.4. CLARA

4.4. CLARA

5. Hồi quy logistic đa thức

5.1. Lấy dữ liệu

  • Biến phụ thuộc: Medal

  • Biến độc lập: Height, Weight, SexAge

5.2. Kiểm tra outliers

5.3. Mô hình hồi quy

(Intercept) Height SexM Age
Bronze -6.847*** 0.025*** -0.375*** -0.006
Silver -9.091*** 0.036*** -0.594*** 0.008
Gold -10.125*** 0.041*** -0.624*** 0.011
p<0.01, ** p<0.05, * p<0.1
Residual Deviance: 15715.09
AIC: 15739.09

5.3. Mô hình hồi quy

(Intercept) Weight SexM Age
Bronze -3.934*** 0.023*** -0.44*** -0.010
Silver -4.592*** 0.027*** -0.596*** 0.004
Gold -4.87*** 0.03*** -0.611*** 0.007
p<0.01, ** p<0.05, * p<0.1
Residual Deviance: 15722.01
AIC: 15746.01