Những yêu cầu của Assignment này:

  1. Phải cố gắng làm trước khi tham dự buổi học thứ 4.
  2. Làm đúng ít nhất 50% số câu hỏi.

Assignment 1

Assignment này sử dụng bộ dữ liệu multiple_choice_responses.csv được cung cấp bởi Kaggle. Để giải quyết tốt những câu hỏi được giao ở Assignment này các bạn nên đọc trước mô tả về bộ dữ liệu này tại https://www.kaggle.com/c/kaggle-survey-2019. Đây là bộ dữ liệu được sử dụng trong cuộc thi về làm sạch (dữ liệu) và hình ảnh hóa dữ liệu với tổng giải thưởng là 30.000$.

Trước hết, đọc bộ dữ liệu này vào R:

# Clear workspace: 
rm(list = ls())


# Load package and data: 
library(readr)
library(dplyr)
library(tidyverse)
df_raw <- read_csv("D:\\Desktop\\R\\Day3\\multiple_choice_responses.csv", skip = 1)
  • Q1. Tại sao trong đoạn mã đọc dữ liệu ở trên lại sử dụng skip = 1 để loại bỏ dòng 1 khi đọc vào dữ liệu?

Trả lời: Trong bộ dữ liệu thì dòng 1 đang bị thừa và không sử dụng trong quá trình xử lý dữ liệu.

  • Q2. Tên các cột biến có sử dụng dấu cách (space). Hãy thay thế tất cả các dấu cách bằng dấu gạch dưới (underscore).
library(stringr)

names(df_raw) %>% str_replace_all(pattern = " ", replacement = "_")-> df_1

names(df_raw) <- df_1
  • Q3. Tách ra data frame chỉ gồm hai cột biến là What_is_your_gender?_-_Selected_ChoiceIn_which_country_do_you_currently_reside? rồi đổi tên cho chúng lần lượt thành gendernation.
df_raw %>% select(`What_is_your_gender?_-_Selected_Choice`, `In_which_country_do_you_currently_reside?`) -> df_raw

new_names <- c("gender", "nation")

names(df_raw) <- new_names
  • Q4. Tính toán tỉ lệ nữ làm nghề Data Science cho tất cả các quốc gia trong mẫu khảo sát.
df_raw %>% filter(gender %in% c("Male", "Female")) %>% 
  group_by(gender, nation) %>% 
  count() %>% ungroup()-> df_raw


# calculate Female Rate:
df_raw %>% 
  spread(key = "gender", value = "n") %>% 
  mutate(Rate = Female / (Female + Male)) %>% 
  arrange(Rate) %>% 
  mutate(label = round(100*Rate, 1)) %>% 
  mutate(label = as.character(label)) %>% 
  mutate(label = case_when(!str_detect(label, "\\.") ~ paste0(label, ".0"), TRUE ~ label)) %>% 
  mutate(label = paste0(label, "%")) %>% 
  mutate(nation = factor(nation, levels = nation)) -> df_rate
  • Q5. Lấy ra danh sách 20 quốc gia bao gồm Việt Nam và 19 quốc gia có tỉ lệ nữ làm Data Science lớn nhất (top 19).
# Top 19 nations

df_rate %>% 
  arrange(-Rate) %>% 
  top_n(n = 19, wt = Rate)-> top_19
# Vietnam
df_rate %>% group_by(nation) %>% 
  filter(nation == "Viet Nam")-> df_vietnam

full_join(top_19, df_vietnam)-> df_new
  • Q6. Sử dụng dữ liệu có được ở Q5 hãy tạo ra (hoặc mô phỏng) lại biểu đồ Bar ở nhằm biểu diễn tỉ lệ Nữ làm Data Science cho 20 quốc gia đã được chọn như sau:
df_raw %>% 
  mutate(nation = factor(nation, levels = df_new$nation))-> df_nat

df_nat %>% full_join(df_new, by = "nation") %>%
  filter(!is.na(nation))-> df_final

#set color
my_colors <- c("#2E74C0", "#CB454A")

df_final %>% 
  ggplot(aes(x = nation, y = n, fill = gender)) +
  geom_col(position = "fill") + coord_flip()+
  geom_text(aes(x = nation, y = 0.95, label = label), size = 3.8, color = "white") +
  scale_fill_manual(name = "", values = c(Male = my_colors[1], Female = my_colors[2]), labels = c("Female", "Male")) +
  scale_y_continuous(labels = paste0(seq(0, 100, 25), "%"), expand = c(0, 0)) +
  theme_minimal() +
  theme(plot.margin = unit(rep(0.5, 4), "cm")) +
  theme(plot.background = element_rect(fill = "#EFF2F4")) +
  theme(plot.subtitle = element_text(size = 10, color = "grey30")) +
  theme(plot.title = element_text(size = 16)) +
  theme(plot.caption = element_text(size = 8, color = "grey30")) +
  theme(axis.text.x = element_text(size = 10)) +
  theme(axis.text.y = element_text(size = 10)) +
  guides(fill = guide_legend(reverse = TRUE)) +
  theme(panel.grid.major.x = element_blank()) +
  theme(panel.grid.major.y = element_blank()) +
  theme(legend.key.height = unit(0.16, "mm"), legend.key.width = unit(5, "mm")) +
  labs(x = NULL, y = NULL,
       title = "Fact 1: Women in Machine Learning and Data Science Comunity", 
       subtitle = "There’s still a significant gender gap for data scientists, with 84% of users identifying as males.\nThe United States has a slightly smaller gender gap at 79%, while Japan has a slightly higher one at 90%.", 
       caption = "Source: 2019 Kaggle ML & DS Survey")

Assignment 2

Q1. Object có tên all_links_communes_level được tạo ra đoạn R Codes dưới đây:

library(rvest)
library(stringr)

all_links <- "https://www.citypopulation.de/Vietnam.html"

pg <- read_html(all_links)

m <- html_nodes(pg, "a")

k <- html_attr(m, "href")

all_links_communes_level <-  str_c("https://www.citypopulation.de/en/vietnam/", k[-c(1:6)])

Thuộc dạng dữ liệu gì? Mỗi phần tử của all_links_communes_level là link dẫn đến thông tin gì?

Object thuộc kiểu dữ liệu character. Mỗi phần tử là link dẫn đến thông tin dân số của các tỉnh trên cả nước Việt Nam.

Q2. Xét đoạn mã dưới đây:

library(dplyr)

specific_link <- all_links_communes_level[1]

specific_link %>% 
  read_html() %>% 
  html_nodes(xpath = '//*[@id="tl"]') %>% 
  html_table(fill = TRUE) %>% 
  .[[1]] -> df


head(df)
##                   Name         Status PopulationCensus2009-04-01         
## 1     Bình Th<U+1EE7>y Urban District                    113,565 <U+2192>
## 2       An Th<U+1EDB>i           Ward                     18,499 <U+2192>
## 3     Bình Th<U+1EE7>y           Ward                     18,307 <U+2192>
## 4 Bùi H<U+1EEF>u Nghia           Ward                     11,745 <U+2192>
## 5             Long Hòa           Ward                     16,450 <U+2192>
## 6    Long Tuy<U+1EC1>n           Ward                     15,232 <U+2192>

Trong đoạn mã trên nếu thay all_links_communes_level[1] thành all_links_communes_level[2] thì hệ quả sẽ là gì? Có thể thay thành all_links_communes_level[100] được không?

-Nếu thay đoạn mã all_links_communes_level[1] thành all_links_communes_level[2] thì khi đó trả về kết quả dân só các quận huyện nằm trong link thứ 2, cụ thể là của thành phố Đà Nẵng.

-Không thể thay thành 100 vì Việt Nam chỉ có 63 tỉnh thành, truy xuất dữ liệu lớn hơn 63 sẽ không tồn tại.

Q3. Từ phân tích và nhận xét rút ra ở Q2 hãy viết một hàm mà nhận input là địa chỉ link của HTML và trả về kết quả (output) là một Data Frame chứa thông tin về dân số theo Huyện và Xã tương ứng với địa chỉ link của HTML.

Q4. Từ dữ liệu đã có ở Q3 hãy vẽ Choropleth Map minh họa mật độ dân số của Việt Nam theo cấp: (a) Tình, (b) Huyện. Giải thuyết rằng những số liệu về dân số thu được (kể cả cấp Huyện lẫn Xã) chính là mật độ dân số.

---
title: 'Assignment for Day 3'
author: 'Author: Nguyen Thi Ngoc Huyen'
subtitle: "R course 11"
output:
  html_document: 
    code_download: true
    # code_folding: hide
    highlight: zenburn
    # number_sections: yes
    theme: "flatly"
    toc: TRUE
    toc_float: TRUE
---

```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE, cache = TRUE)

```

Những yêu cầu của Assignment này: 

1. Phải cố gắng làm trước khi tham dự buổi học thứ 4. 
2. Làm đúng ít nhất 50% số câu hỏi. 


# Assignment 1

Assignment này sử dụng bộ dữ liệu **multiple_choice_responses.csv** được cung cấp bởi Kaggle. Để giải quyết tốt những câu hỏi được giao ở Assignment này các bạn nên đọc trước mô tả về bộ dữ liệu này tại https://www.kaggle.com/c/kaggle-survey-2019. Đây là bộ dữ liệu được sử dụng trong cuộc thi về làm sạch (dữ liệu) và hình ảnh hóa dữ liệu với tổng giải thưởng là 30.000$. 

Trước hết, đọc bộ dữ liệu này vào R: 


```{r}
# Clear workspace: 
rm(list = ls())


# Load package and data: 
library(readr)
library(dplyr)
library(tidyverse)
df_raw <- read_csv("D:\\Desktop\\R\\Day3\\multiple_choice_responses.csv", skip = 1)


```

- Q1. Tại sao trong đoạn mã đọc dữ liệu ở trên lại sử dụng `skip = 1` để loại bỏ dòng 1 khi đọc vào dữ liệu? 

Trả lời: Trong bộ dữ liệu thì dòng 1 đang bị thừa và không sử dụng trong quá trình xử lý dữ liệu.

- Q2. Tên các cột biến có sử dụng dấu cách (space). Hãy thay thế tất cả các dấu cách bằng dấu gạch dưới (underscore). 
```{r}
library(stringr)

names(df_raw) %>% str_replace_all(pattern = " ", replacement = "_")-> df_1

names(df_raw) <- df_1

```

- Q3. Tách ra data frame chỉ gồm hai cột biến là `What_is_your_gender?_-_Selected_Choice` và `In_which_country_do_you_currently_reside?` rồi đổi tên cho chúng lần lượt thành *gender* và *nation*. 
```{r}

df_raw %>% select(`What_is_your_gender?_-_Selected_Choice`, `In_which_country_do_you_currently_reside?`) -> df_raw

new_names <- c("gender", "nation")

names(df_raw) <- new_names


```

- Q4. Tính toán tỉ lệ nữ làm nghề Data Science cho tất cả các quốc gia trong mẫu khảo sát. 
```{r}

df_raw %>% filter(gender %in% c("Male", "Female")) %>% 
  group_by(gender, nation) %>% 
  count() %>% ungroup()-> df_raw


# calculate Female Rate:
df_raw %>% 
  spread(key = "gender", value = "n") %>% 
  mutate(Rate = Female / (Female + Male)) %>% 
  arrange(Rate) %>% 
  mutate(label = round(100*Rate, 1)) %>% 
  mutate(label = as.character(label)) %>% 
  mutate(label = case_when(!str_detect(label, "\\.") ~ paste0(label, ".0"), TRUE ~ label)) %>% 
  mutate(label = paste0(label, "%")) %>% 
  mutate(nation = factor(nation, levels = nation)) -> df_rate


```

- Q5. Lấy ra danh sách 20 quốc gia bao gồm Việt Nam và 19 quốc gia có tỉ lệ nữ làm Data Science lớn nhất (top 19). 
```{r}
# Top 19 nations

df_rate %>% 
  arrange(-Rate) %>% 
  top_n(n = 19, wt = Rate)-> top_19
# Vietnam
df_rate %>% group_by(nation) %>% 
  filter(nation == "Viet Nam")-> df_vietnam

full_join(top_19, df_vietnam)-> df_new


```


- Q6. Sử dụng dữ liệu có được ở Q5 hãy tạo ra (hoặc mô phỏng) lại biểu đồ Bar ở nhằm biểu diễn tỉ lệ Nữ làm Data Science cho 20 quốc gia đã được chọn như sau: 

```{r}

df_raw %>% 
  mutate(nation = factor(nation, levels = df_new$nation))-> df_nat

df_nat %>% full_join(df_new, by = "nation") %>%
  filter(!is.na(nation))-> df_final

#set color
my_colors <- c("#2E74C0", "#CB454A")

df_final %>% 
  ggplot(aes(x = nation, y = n, fill = gender)) +
  geom_col(position = "fill") + coord_flip()+
  geom_text(aes(x = nation, y = 0.95, label = label), size = 3.8, color = "white") +
  scale_fill_manual(name = "", values = c(Male = my_colors[1], Female = my_colors[2]), labels = c("Female", "Male")) +
  scale_y_continuous(labels = paste0(seq(0, 100, 25), "%"), expand = c(0, 0)) +
  theme_minimal() +
  theme(plot.margin = unit(rep(0.5, 4), "cm")) +
  theme(plot.background = element_rect(fill = "#EFF2F4")) +
  theme(plot.subtitle = element_text(size = 10, color = "grey30")) +
  theme(plot.title = element_text(size = 16)) +
  theme(plot.caption = element_text(size = 8, color = "grey30")) +
  theme(axis.text.x = element_text(size = 10)) +
  theme(axis.text.y = element_text(size = 10)) +
  guides(fill = guide_legend(reverse = TRUE)) +
  theme(panel.grid.major.x = element_blank()) +
  theme(panel.grid.major.y = element_blank()) +
  theme(legend.key.height = unit(0.16, "mm"), legend.key.width = unit(5, "mm")) +
  labs(x = NULL, y = NULL,
       title = "Fact 1: Women in Machine Learning and Data Science Comunity", 
       subtitle = "There’s still a significant gender gap for data scientists, with 84% of users identifying as males.\nThe United States has a slightly smaller gender gap at 79%, while Japan has a slightly higher one at 90%.", 
       caption = "Source: 2019 Kaggle ML & DS Survey")


```


# Assignment 2

Q1. Object có tên **all_links_communes_level** được tạo ra đoạn R Codes dưới đây: 

```{r}
library(rvest)
library(stringr)

all_links <- "https://www.citypopulation.de/Vietnam.html"

pg <- read_html(all_links)

m <- html_nodes(pg, "a")

k <- html_attr(m, "href")

all_links_communes_level <-  str_c("https://www.citypopulation.de/en/vietnam/", k[-c(1:6)])

```

Thuộc dạng dữ liệu gì? Mỗi phần tử của all_links_communes_level là link dẫn đến thông tin gì? 

Object thuộc kiểu dữ liệu character.
Mỗi phần tử là link dẫn đến thông tin dân số của các tỉnh trên cả nước Việt Nam.

Q2. Xét đoạn mã dưới đây: 

```{r}

library(dplyr)

specific_link <- all_links_communes_level[1]

specific_link %>% 
  read_html() %>% 
  html_nodes(xpath = '//*[@id="tl"]') %>% 
  html_table(fill = TRUE) %>% 
  .[[1]] -> df


head(df)


```

Trong đoạn mã trên nếu thay `all_links_communes_level[1]` thành `all_links_communes_level[2]` thì hệ quả sẽ là gì? Có thể thay thành `all_links_communes_level[100]` được không? 

-Nếu thay đoạn mã `all_links_communes_level[1]` thành `all_links_communes_level[2]` thì khi đó trả về kết quả dân só các quận huyện nằm trong link thứ 2, cụ thể là của thành phố Đà Nẵng.

-Không thể thay thành 100 vì Việt Nam chỉ có 63 tỉnh thành, truy xuất dữ liệu lớn hơn 63 sẽ không tồn tại.

Q3. Từ phân tích và nhận xét rút ra ở Q2 hãy viết một hàm mà nhận input là địa chỉ link của HTML và trả về kết quả (output) là một Data Frame chứa thông tin về dân số theo Huyện và Xã tương ứng với địa chỉ link của HTML. 


Q4. Từ dữ liệu đã có ở Q3 hãy vẽ Choropleth Map minh họa mật độ dân số của Việt Nam theo cấp: (a) Tình, (b) Huyện. Giải thuyết rằng những số liệu về dân số thu được (kể cả cấp Huyện lẫn Xã) chính là mật độ dân số. 











