Exercise 1

Câu hỏi 1: Viết hàm tính diện tích của một hình chữ nhật. Sử dụng hàm để tính diện tích của hình chữ nhật có hai cạnh lần lượt là 3 và 7.

dien_tich <- function(dai, rong)
{
  S = dai * rong
  return(S)
}
dien_tich(3,7)

Câu hỏi 2: Viết hàm tính độ lệch chuẩn (Standard Deviation) của một vector có dạng dữ liệu là numeric.

do_lech_chuan <- function(x)
{
  sd(x)
}
x <- c(1,2,3,4,5,55,6,3)
do_lech_chuan(x)

Exercise 2

Giải nén bộ dữ liệu stock.rar rồi cho tất cả các file dữ liệu vào một thư mục có tên stock ở, ví dụ, ổ E. Lệnh dir() để xác định đường dẫn của tất cả các file dữ liệu sẽ là như sau:

# show all data files in folder: 
library(readr)
library(dplyr)
install.packages("plyr")
library(plyr)
all_data_paths <- dir("D:/stock", full.names = TRUE)
str(all_data_paths)
getwd()
#Question 4
data1 <- read.csv("D:/stock/excel_vnm.csv")
data2 <- read.csv("D:/stock/excel_fpt.csv")
data_total <- bind_rows(data1, data2)
#Question 5
data_all <- list.files(path = "D:/stock", pattern = "*.csv", full.names = TRUE) %>% 
  lapply(read_csv) %>% 
  bind_rows()
  • Câu hỏi 1: Kiểu dữ liệu (data type) của all_data_paths là gì?

  • Trả lời: Là kiểu dữ liệu character độ dài 32 ký tự

  • Câu hỏi 2: Có tồn tại file dữ liệu nào có ba chữ cái vnm hay không?

  • Trả lời: Tồn tại file dữ liệu có ký tự vnm trong folder stock

  • Câu hỏi 3: Có bao nhiêu file dữ liệu có kí hiệu ^?

  • Trả lời: Có 2 file có ký tự ^ trong folder stock

  • Câu hỏi 4: Đọc hai files dữ liệu lần lượt có các cụm từ vnmfpt rồi sử dụng lệnh bind_rows() để join hai bộ dữ liệu này thành một data frame duy nhất.

  • Câu hỏi 5: Lặp lại công việc ở câu hỏi 4 nhưng cho tất cả các files dữ liệu có trong thư mục stock. Gợi ý: sử dụng vòng lặp for loop với chú ý rằng để tạo một data frame trống chúng ta sử dụng lệnh df_space <- data.frame().

Exercise 3

Sử dụng bộ dữ liệu coronavirus.csv rồi dùng bar plot để hình ảnh hóa 10 quốc gia có số người chết cao nhất theo kiểu dưới đây:

Exercise 4

Vẫn sử dụng bộ dữ liệu coronavirus.csv. Tỉ lệ chết tại một ngày DDR (daily death rate) có thể được định nghĩa như sau:

\[DDR = death / (confirmed - recovered)\]

Trong đó death, confirmed, recovered lần lượt là số người chết, số người nhiễm mới và số người hồi phục tại một ngày được chọn.

  • Câu hỏi 1: Lấy ra quốc gia là US rồi tính toán DDR rồi trình bày dưới dạng một data frame dạng như sau:
# Create a fake data frame about daily death rate for US: 

us_sample_ddr <- data.frame(date = c("date_ymd: 2020-01-22", "date_ymd: 2020-01-23"), 
                            ddr = c(0.08, 0.07))


# Show data form: 
library(readr)
library(dplyr)
coronavirus <- read_csv("C:/Users/Admin/Desktop/Homework/coronavirus.csv")
coronavirus %>% 
  filter(country == "US") ->ddr_US

death_US <- ddr_US %>% filter(type == "death")
confirmed_US <- ddr_US %>% filter(type == "confirmed")
recover_US <- ddr_US %>% filter(type == "recovered")

ddr = death_US$cases/(confirmed_US$cases- recover_US$cases)
us_dataframe_ddr <- data.frame(date = ddr_US$date %>% unique(), ddr = ddr)
us_dataframe_ddr
  • Câu hỏi 2: Thực hiện công việc ở câu hỏi 1 nhưng cho tất cả các quốc gia trong bộ dữ liệu coronavirus.csv. Các hướng gợi ý: (1) bạn có thể sử dụng vòng lặp for loop, hoặc (2) chỉ sử dụng các hàm đã được học của dplyr, hoặc (3) kết hợp cả (1) và (2) để giải quyết vấn đề.
# Create a fake data frame about daily death rate for US: 

us_sample_ddr <- data.frame(date = c("date_ymd: 2020-01-22", "date_ymd: 2020-01-23"), 
                            ddr = c(0.08, 0.07))


# Show data form: 
library(dplyr)
library(readr)
coronavirus <- read_csv("C:/Users/Admin/Desktop/Homework/coronavirus.csv")
 coronavirus %>%
   group_by(country) %>%
   count() %>%
   ungroup() %>% 
   mutate(id = country)->country_count
   
 is.data.frame(country_count)
 str(country_count)
 head(country_count)
 quoc_gia <-  country_count$id
#n <- length(country_count$id)
#attach(country_count)
 tinh_ddr <- function(quoc_gia){
 # for (i in 1:n) {
 coronavirus %>% 
  filter(country == "US") -> ddr_US

death_US <- ddr_US %>% filter(type == "death")
confirmed_US <- ddr_US %>% filter(type == "confirmed")
recover_US <- ddr_US %>% filter(type == "recovered")

ddr = death_US$cases/(confirmed_US$cases- recover_US$cases)
dataframe_ddr <- data.frame(date = ddr_US$date %>% unique(), ddr = ddr)   


#}
return(dataframe_ddr)
 }
# Ví dụ tính ddr cho China, số thứ tự 37
View(tinh_ddr(quoc_gia [37]))

Notes

  • Các bài tập (dù làm đúng hay sai) phải được hoàn thành trước ngày 06-06.

  • Hình thức gửi bài: công bố trên Rpub rồi gửi link qua email.

---
title: "Assignment (Day 2)"
author: "Author: Tran Quang Quy"
subtitle: "Answer for homework day 2"
output:
  html_document: 
    code_download: true
    # code_folding: hide
    highlight: zenburn
    # number_sections: yes
    theme: "flatly"
    toc: TRUE
    toc_float: TRUE
---

```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE, fig.width = 10, fig.height = 6)
```


# Exercise 1

Câu hỏi 1: Viết hàm tính diện tích của một hình chữ nhật. Sử dụng hàm để tính diện tích của hình chữ nhật có hai cạnh lần lượt là 3 và 7. 
```{r, eval=FALSE}


dien_tich <- function(dai, rong)
{
  S = dai * rong
  return(S)
}
dien_tich(3,7)

```

Câu hỏi 2: Viết hàm tính độ lệch chuẩn (Standard Deviation) của một vector có dạng dữ liệu là numeric.
```{r, eval=FALSE}


do_lech_chuan <- function(x)
{
  sd(x)
}
x <- c(1,2,3,4,5,55,6,3)
do_lech_chuan(x)

```



# Exercise 2

Giải nén bộ dữ liệu **stock.rar** rồi cho tất cả các file dữ liệu vào một thư mục có tên *stock* ở, ví dụ,  ổ E. Lệnh `dir()` để xác định đường dẫn của tất cả các file dữ liệu sẽ là như sau: 

```{r, eval=FALSE}

# show all data files in folder: 
library(readr)
library(dplyr)
install.packages("plyr")
library(plyr)
all_data_paths <- dir("D:/stock", full.names = TRUE)
str(all_data_paths)
getwd()
#Question 4
data1 <- read.csv("D:/stock/excel_vnm.csv")
data2 <- read.csv("D:/stock/excel_fpt.csv")
data_total <- bind_rows(data1, data2)
#Question 5
data_all <- list.files(path = "D:/stock", pattern = "*.csv", full.names = TRUE) %>% 
  lapply(read_csv) %>% 
  bind_rows()
  
```


- Câu hỏi 1: Kiểu dữ liệu (data type) của *all_data_paths* là gì? 
+ Trả lời: Là kiểu dữ liệu character độ dài 32 ký tự

- Câu hỏi 2: Có tồn tại file dữ liệu nào có ba chữ cái **vnm** hay không? 
+  Trả lời: Tồn tại file dữ liệu có ký tự **vnm** trong folder stock
- Câu hỏi 3: Có bao nhiêu file dữ liệu có kí hiệu **^**?  
+ Trả lời: Có 2 file có ký tự **^** trong folder stock
- Câu hỏi 4: Đọc hai files dữ liệu lần lượt có các cụm từ **vnm** và **fpt** rồi sử dụng lệnh `bind_rows()` để join hai bộ dữ liệu này thành một data frame duy nhất. 
- Câu hỏi 5: Lặp lại công việc ở câu hỏi 4 nhưng cho tất cả các files dữ liệu có trong thư mục stock. Gợi ý: sử dụng vòng lặp *for loop* với chú ý rằng để tạo một data frame trống chúng ta sử dụng lệnh `df_space <- data.frame()`. 


# Exercise 3

Sử dụng bộ dữ liệu **coronavirus.csv** rồi dùng bar plot để hình ảnh hóa 10 quốc gia có số người chết cao nhất theo kiểu dưới đây: 


```{r, echo=FALSE}

# Load some R packages: 

library(readr)
library(dplyr)
library(ggplot2)


# Load data: 

coronavirus <- read_csv("C:/Users/Admin/Desktop/Homework/coronavirus.csv")


# Top 10 by total death: 

coronavirus %>% 
  filter(type == "death") %>% 
  group_by(country) %>% 
  summarise(total_death = sum(cases)) %>% 
  ungroup() %>% 
  arrange(-total_death) %>% 
  slice(1:10) -> df_top10


# Rearrange data frame: 

df_top10 %>% 
  arrange(total_death) %>% 
  mutate(nation = factor(country, levels = country)) -> df_top10


# Nations with number of deaths > 10000: 

df_text1 <- df_top10 %>% filter(total_death > 10000)

over_10 <- df_text1 %>% pull(country)


# Nations with number of deaths < 10000: 

df_text2 <- df_top10 %>% filter(!country %in% over_10)


# Bar plot: 

df_top10 %>% 
  ggplot(aes(x = country, y = total_death)) + 
  geom_col() + 
  coord_flip() + 
  geom_text(data = df_text1, aes(label = total_death), hjust = 1.1, color = "white") + 
  geom_text(data = df_text2, aes(label = total_death), hjust = -0.1, color = "red")


```



# Exercise 4

Vẫn sử dụng bộ dữ liệu **coronavirus.csv**. Tỉ lệ chết tại một ngày DDR (daily death rate) có thể được định nghĩa như sau: 


$$DDR = death / (confirmed - recovered)$$


Trong đó death, confirmed, recovered lần lượt là số người chết, số người nhiễm mới và số người hồi phục tại một ngày được chọn. 


- Câu hỏi 1: Lấy ra quốc gia là US rồi tính toán DDR rồi trình bày dưới dạng một data frame dạng như sau: 


```{r, eval=FALSE}

# Create a fake data frame about daily death rate for US: 

us_sample_ddr <- data.frame(date = c("date_ymd: 2020-01-22", "date_ymd: 2020-01-23"), 
                            ddr = c(0.08, 0.07))


# Show data form: 
library(readr)
library(dplyr)
coronavirus <- read_csv("C:/Users/Admin/Desktop/Homework/coronavirus.csv")
coronavirus %>% 
  filter(country == "US") ->ddr_US

death_US <- ddr_US %>% filter(type == "death")
confirmed_US <- ddr_US %>% filter(type == "confirmed")
recover_US <- ddr_US %>% filter(type == "recovered")

ddr = death_US$cases/(confirmed_US$cases- recover_US$cases)
us_dataframe_ddr <- data.frame(date = ddr_US$date %>% unique(), ddr = ddr)
us_dataframe_ddr



```


- Câu hỏi 2: Thực hiện công việc ở câu hỏi 1 nhưng cho tất cả các quốc gia trong bộ dữ liệu coronavirus.csv. Các hướng gợi ý: (1) bạn có thể sử dụng vòng lặp for loop, hoặc (2) chỉ sử dụng các hàm đã được học của dplyr, hoặc (3) kết hợp cả (1) và (2) để giải quyết vấn đề. 

```{r, eval=FALSE}

# Create a fake data frame about daily death rate for US: 

us_sample_ddr <- data.frame(date = c("date_ymd: 2020-01-22", "date_ymd: 2020-01-23"), 
                            ddr = c(0.08, 0.07))


# Show data form: 
library(dplyr)
library(readr)
coronavirus <- read_csv("C:/Users/Admin/Desktop/Homework/coronavirus.csv")
 coronavirus %>%
   group_by(country) %>%
   count() %>%
   ungroup() %>% 
   mutate(id = country)->country_count
   
 is.data.frame(country_count)
 str(country_count)
 head(country_count)
 quoc_gia <-  country_count$id
#n <- length(country_count$id)
#attach(country_count)
 tinh_ddr <- function(quoc_gia){
 # for (i in 1:n) {
 coronavirus %>% 
  filter(country == "US") -> ddr_US

death_US <- ddr_US %>% filter(type == "death")
confirmed_US <- ddr_US %>% filter(type == "confirmed")
recover_US <- ddr_US %>% filter(type == "recovered")

ddr = death_US$cases/(confirmed_US$cases- recover_US$cases)
dataframe_ddr <- data.frame(date = ddr_US$date %>% unique(), ddr = ddr)   


#}
return(dataframe_ddr)
 }
# Ví dụ tính ddr cho China, số thứ tự 37
View(tinh_ddr(quoc_gia [37]))


```
# Notes

- Các bài tập (dù làm đúng hay sai) phải được hoàn thành trước ngày 06-06. 

- Hình thức gửi bài: công bố trên Rpub rồi gửi link qua email. 











