THÔNG TIN VỀ CHẤT LƯỢNG KHÔNG KHÍ TẠI NEW YORK TỪ THÁNG 5 NĂM 1973
ĐẾN THÁNG 9 NĂM 1973
- Thông tin bộ dữ liệu
library(datasets)
data(package = 'datasets')
library(ggplot2)
data(package = 'ggplot2')
dq <- airquality
Đồ thị số 1
library(tidyverse)
library(scales)
dq <- airquality
dq %>% group_by(Wind) %>% summarise(n = n()) %>%
ggplot(aes(Wind,n)) +
geom_col(fill='skyblue') +
geom_text(aes(label = n),vjust = 2, color = 'red') +
labs(x = 'Tốc độ gió', y = 'Số lượng')

Ta Phân loại tốc độ gió theo từng mức độ và tính số lượng của
từng mức độ.
x là từng mức độ của tốc độ gió, y là số lượng của từng mức
.
Các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2
đơn vị. Màu của các cột là màu xanh da trời.
Biểu đồ thể hiện sự phân bố số lượng theo từng mức tốc độ
gió.
Có một số mức tốc độ gió có số lượng cao hơn, cụ thể là:
Có một số mức tốc độ gió có số lượng thấp hơn, cụ thể là:
- Mức dưới 5 mph và trên 20 mph có số lượng thấp nhất.
Đồ thị số 2
dq <- airquality
dq <- dq %>% group_by(Month, Ozone) %>% summarise(n = n())
## `summarise()` has grouped output by 'Month'. You can override using the
## `.groups` argument.
dq %>% ggplot(aes(x = Month, y = n)) +
geom_col(data = dq %>% filter( Month== '5'), fill = 'purple') +
geom_col(data = dq %>% filter(Month == '9'), fill = 'turquoise')

- Ta phân loại nồng độ theo các tháng sau đó tính số lượng .
- Ở biểu đồ trên thì ta gắn x là Month, y là nồng độ ozone của 2 tháng
5 và 9;
- Ta sẽ lọc nồng độ ozone của tháng 5, cột biểu đồ có màu tím và nồng
độ của tháng 9, biểu đồ có màu xanh ngọc.
- Tổng số lượng nồng độ ozone trong tháng 5 cao hơn so với tháng
9.
- Tổng số lượng nồng độ ozone trong tháng 5 với mức trung bình khoảng
31 ppb.
- Tổng số lượng nồng độ ozone trong tháng 9 với mức trung bình khoảng
30 ppb.
Đồ thị số 3
dq <- airquality
dq %>% ggplot(aes(x = Solar.R)) +
geom_histogram(binwidth = 10, fill = 'blue', color = 'red')
## Warning: Removed 7 rows containing non-finite values (`stat_bin()`).
- Biểu đồ thể hiện sự thay đổi cường độ bức xạ mặt trời
Đồ thị số 4
dq <- airquality
dq %>% ggplot(aes(x = Wind)) +
geom_density(fill = 'red')
- Qua biểu đồ ta thấy hầu hết tốc độ gió đều nằm trong khoảng 5 đến
15
- Ở mức tốc độ gió đạt 10mph có số lượng cao nhất
Đồ thị số 5
dq <- airquality
dq %>% group_by(Temp) %>% summarise(n = n()) %>%
ggplot(aes(x = '', y = n,fill = Temp)) +
geom_col(color = 'black') +
coord_polar('y') +
geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
theme_void()

Biểu đồ biểu diễn số lượng từng mức nhiệt độ
Ở mức nhiệt độ càng cao thì có số lượng càng ít
Số lượng nhiệt độ nhiều nhất là 11 với mức nhiệt độ là từ 70 đến
80
Đồ thị số 6
dq <- airquality
dq %>% ggplot(aes(x = Day, y = Month, color = Solar.R)) +
geom_point()
- Biểu đồ biểu diễn bức xạ mặt trời theo từng tháng từ tháng 5 đến tháng
9
- Qua đồ thị ta thấy tháng 7 ,8 là những tháng có mức bức xạ cao nhất
với nhiều số lượng bức xạ từ 200 đến 300
Đồ thị số 7
dq <- airquality
dq %>% group_by(Temp) %>% summarise(n = n()) %>%
ggplot(aes(Temp,n)) +
geom_area(fill='skyblue') +
geom_text(aes(label = n),vjust = 2, color = 'red') +
labs(x = 'Nhiệt độ', y = 'Số lượng')
- Biểu đồ miền biểu diễn số lượng các mức nhiệt độ
Đồ thị số 8
dq <- airquality
dq %>% ggplot(aes(x = Temp)) +
geom_density(color = 'red', fill = 'skyblue')+
labs( x = 'Nhiệt độ')
- Qua biểu đồ ta thấy được: mật độ nhiệt độ phân phối không đồng đều
Đồ thị số 9
dq <- airquality
dq %>% group_by(Wind) %>% summarise(n = n()) %>%
ggplot(aes(Wind,n)) +
geom_bin2d(fill='pink') +
geom_text(aes(label = n),vjust = 2, color = 'black') +
labs(x = 'Tốc độ gió', y = 'Số lượng')
- Đây là biểu đồ mật độ 2D, chia dữ liệu thành các ô vuông, mỗi ô vuông
là 1 dữ liệu
Biểu đồ biểu diễn số lượng từng mức của tốc độ gió
Ở mức 5 đến 10 có số lượng tốc độ gió nhiều nhất
Ở mức 10 đến 15 chứa số lượng tốc độ gió cao nhất là 15
Đồ thị số 10
dq <- airquality
dq %>% ggplot(aes(x = Solar.R)) +
geom_density(color = 'black', fill = 'pink')+
labs( x = 'Bức xạ mặt trời')
## Warning: Removed 7 rows containing non-finite values (`stat_density()`).

Đồ thị số 11
dq <- airquality
dq %>% ggplot(aes(x = Ozone)) +
geom_density(color = 'red', fill = 'blue')+
labs( x = 'nồng độ ozone')
## Warning: Removed 37 rows containing non-finite values (`stat_density()`).
- Mật độ về nồng độ ozone tăng cao nhất ở khoảng dưới 50, sau đó giảm
dần xuống tận 150
- Vị trí có mật độ cao nhất nằm tầm khoảng 25
Đồ thị số 12
dq <- airquality
dq %>% group_by(Month) %>% summarise(m = mean(Wind)) %>%
ggplot(aes(x = Month,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m))) +
labs(x = 'Tháng', y = 'Tốc độ gió trung bình')
- Biểu đồ biểu diễn tốc độ gió trung bình của từng tháng
- Tháng 5 có tốc độ trung bình cao nhất là 12
- Tháng 6 và tháng 9 có tốc độ gió trung bình bằng nhau là 10
- Tháng 7 và 8 có tốc độ gió trung bình bằng nhau là 9 và là thấp nhất trong 5 tháng
Đồ thị số 13
dq <- airquality
dq %>% ggplot(aes(x = Month, y = Temp)) +
geom_point(color = 'red') +
geom_smooth(method = 'lm', color = 'green')
## `geom_smooth()` using formula = 'y ~ x'
- Cho biết mối quan hệ của nhiệt độ theo từng tháng
Đồ thị số 14
dq <- airquality
dq %>% ggplot(aes(x= Month, y= Wind)) +
geom_area(fill="skyblue") +
labs(x='Tháng', y='Tốc độ gió')
- Biểu đồ diện tích thể hiện kích thước về tốc độ gió theo từng
tháng
Tốc độ gió tăng ở tháng 5 lên tháng 6
Có sự giảm sau khi đến tháng 7
Đến tháng 8 thì tăng lại và tháng 9 cũng tăng nhẹ # Đồ thị số
15
dq <- airquality
dq %>% ggplot(aes(x= Month, y= Ozone)) +
geom_bin_2d() +
labs(x='Tháng', y='Ozone')
## Warning: Removed 37 rows containing non-finite values (`stat_bin2d()`).
- Biểu đồ biểu diễn nồng độ ozone theo tháng
Nồng độ ozone thấp có màu đậm và nồng độ ozone cao thì màu càng
nhạt
Tháng 6 là tháng có nồng độ ozone thấp nhất
Tháng 8 có số lượng nồng độ ozone nhiều nhất
Đồ thị số 16
dq <- airquality
dq %>% ggplot(aes(x= Solar.R)) +
geom_dotplot() +
labs(x='Bức xạ mặt trời')
## Bin width defaults to 1/30 of the range of the data. Pick better value with
## `binwidth`.
## Warning: Removed 7 rows containing missing values (`stat_bindot()`).
- Mỗi chấm trên biểu đồ thể hiện một giá trị của bức xạ mặt trời
Đồ thị số 17
dq <- airquality
dq %>% group_by(Month) %>% summarise(m = mean(Temp)) %>%
ggplot(aes(x = Month,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m))) +
labs(x = 'Tháng', y = 'Nhiệt độ trung bình')
- Biểu đồ biểu diễn nhiệt độ trung bình của từng tháng
Đồ thị số 18
dq <- airquality
dq <- dq %>% mutate(WindC = cut(Wind,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
dq %>% ggplot(aes(x = WindC)) +
geom_bar(fill = 'pink') +
coord_flip()
- Biểu đồ biểu diễn số lượng các cấp độ của tốc độ gió
Đồ thị số 19
dq <- airquality
dq <- dq %>% mutate(tempc = cut(Temp,3, label = c('nhỏ','vừa','lớn')))
dq %>% ggplot(aes(x = tempc)) +
geom_bar(fill = 'blue')
- Biểu đồ biểu diễn cấp độ của nhiệt độ
- Cấp độ vừa có số lượng nhiều nhất, sau đó tới lớn và ít nhất là
nhỏ
Đồ thị số 20
dq <- airquality
dq %>% ggplot(aes(x = Ozone)) +
geom_histogram(binwidth = 20, fill = 'blue', color = 'red')
## Warning: Removed 37 rows containing non-finite values (`stat_bin()`).

- Biểu đồ biểu diễn sự thay đổi của nồng độ Ozone
- Nồng độ Ozone phân phối không đồng đều
- Nồng độ ở mức dưới 50 là lớn nhất, sau đó giảm dần về 150
---
title: "Nhiệm vụ 5."
author: "Nguyễn Diễm Quỳnh"
date: "`r format(Sys.time(), '%H:%M:%S, %d - %m - %Y')`"
output:
  html_document: 
    toc: true
    toc_float: true
    code_download: true
    df_print: kable
    highlight: tango
  pdf_document:
    extra_dependencies:
      vietnam: utf8
    toc: true
    number_sections: true
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(
  class.source = "numberLines lineAnchors", 
  class.output = c("numberLines lineAnchors chunkout") 
)
library(dplyr)
library(tidyverse)
library(scales)
library(DT)

```

```{css, echo = FALSE}
div.sourceCode pre.chunkout {
  background: white;
}
```
 
# THÔNG TIN VỀ CHẤT LƯỢNG KHÔNG KHÍ TẠI NEW YORK TỪ THÁNG 5 NĂM 1973 ĐẾN THÁNG 9 NĂM 1973

#. Thông tin bộ dữ liệu

- Ozone: Nồng độ ozone (O3)

- Solar.R: Bức xạ mặt trời

- Wind: Tốc độ gió

- Temp: Nhiệt độ

- Month: Tháng

- Day: Ngày

- Bộ dữ liệu có 153 quan sát, 6 biến


```{r}
library(datasets)
data(package = 'datasets')
library(ggplot2)
data(package = 'ggplot2')
dq <- airquality
```


 
# Đồ thị số 1 
```{r}
library(tidyverse)
library(scales)
  dq <- airquality
    dq %>% group_by(Wind) %>% summarise(n = n()) %>%
  ggplot(aes(Wind,n)) +
    geom_col(fill='skyblue') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Tốc độ gió', y = 'Số lượng')
```
    
    
  - Ta Phân loại tốc độ gió theo từng mức độ và tính số lượng của từng mức độ.
  
  - x là từng mức độ của tốc độ gió, y là số lượng của từng mức .
  
  - Các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. Màu của các cột là màu xanh da trời.
  
  - Biểu đồ thể hiện sự phân bố số lượng theo từng mức tốc độ gió.
  
  - Có một số mức tốc độ gió có số lượng cao hơn, cụ thể là:
  
      + Mức 5-10 mph (dặm/giờ) có số lượng cao nhất.
      
      + Mức 10-15 mph có số lượng cao thứ hai.
      
  - Có một số mức tốc độ gió có số lượng thấp hơn, cụ thể là:
  
      + Mức dưới 5 mph và trên 20 mph có số lượng thấp nhất.
    
  

  
# Đồ thị số 2
```{r}
dq <- airquality
dq <- dq %>% group_by(Month, Ozone) %>% summarise(n = n())
dq %>% ggplot(aes(x = Month, y = n)) +
  geom_col(data = dq %>% filter( Month== '5'), fill = 'purple') +
  geom_col(data = dq %>% filter(Month == '9'), fill = 'turquoise')
```
  
  
  - Ta phân loại nồng độ theo các tháng sau đó tính số lượng . 
  - Ở biểu đồ trên thì ta gắn x là Month, y là nồng độ ozone của 2 tháng 5 và 9; 
  - Ta sẽ lọc nồng độ ozone của tháng 5, cột biểu đồ có màu tím và nồng độ của tháng 9, biểu đồ có màu xanh ngọc. 
  - Tổng số lượng nồng độ ozone trong tháng 5 cao hơn so với tháng 9.
  - Tổng số lượng nồng độ ozone trong tháng 5 với mức trung bình khoảng 31 ppb.
  - Tổng số lượng nồng độ ozone trong tháng 9 với mức trung bình khoảng 30 ppb.

  
# Đồ thị số 3

```{r}
dq <- airquality
dq %>% ggplot(aes(x = Solar.R)) +
  geom_histogram(binwidth = 10, fill = 'blue', color = 'red')

```
  - Biểu đồ thể hiện sự thay đổi cường độ bức xạ mặt trời 
  
  - Bức xạ ở mức từ 200 đến 300 có có số lượng cường độ là nhiều nhất
  
  - Bức xạ ở mức từ 0 đến 100 có có số lượng cường độ là ít nhất
  
# Đồ thị số 4

```{r}
dq <- airquality
dq %>% ggplot(aes(x = Wind)) +
  geom_density(fill = 'red')
```
  - Qua biểu đồ ta thấy hầu hết tốc độ gió đều nằm trong khoảng 5 đến 15
  
  - Ở mức tốc độ gió đạt 10mph có số lượng cao nhất
  
# Đồ thị số 5

```{r}
dq <- airquality
dq %>% group_by(Temp) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = Temp)) +
    geom_col(color = 'black') +
    coord_polar('y') +
    geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
 
    theme_void()
```

  - Biểu đồ biểu diễn số lượng từng mức nhiệt độ
  
  - Ở mức nhiệt độ càng cao thì có số lượng càng ít
  
  - Số lượng nhiệt độ nhiều nhất là 11 với mức nhiệt độ là từ 70 đến 80

# Đồ thị số 6

```{r}
dq <- airquality
dq %>% ggplot(aes(x = Day, y = Month, color = Solar.R)) +
  geom_point()
```
  - Biểu đồ biểu diễn bức xạ mặt trời theo từng tháng từ tháng 5 đến tháng 9
  
  - Qua đồ thị ta thấy tháng 7 ,8 là những tháng có mức bức xạ cao nhất với nhiều số lượng bức xạ từ 200 đến 300
  
# Đồ thị số 7
```{r}
dq <- airquality
    dq %>% group_by(Temp) %>% summarise(n = n()) %>%
  ggplot(aes(Temp,n)) +
    geom_area(fill='skyblue') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Nhiệt độ', y = 'Số lượng')
```
  - Biểu đồ miền biểu diễn số lượng các mức nhiệt độ
  
  - Qua biểu đồ ta thấy ở nhiệt độ 80 độ có số lượng nhiều nhất là 11
  
  - Số lượng có xu hướng tăng dần từ mức 60 đến 80 và sau đó giảm dần từ 80 xuống 90
  
# Đồ thị số 8
```{r}
dq <- airquality
    dq %>% ggplot(aes(x = Temp)) + 
        geom_density(color = 'red', fill = 'skyblue')+
        labs( x = 'Nhiệt độ')
```
  - Qua biểu đồ ta thấy được: mật độ nhiệt độ phân phối không đồng đều

  - Nhiệt độ ở mức 80 độ có mật độ cao nhất
  
  - Mức nhiệt độ từ 60 có mật độ tăng dần đến 80 độ sau đó giảm dần xuống 90
  
# Đồ thị số 9
```{r}
dq <- airquality
    dq %>% group_by(Wind) %>% summarise(n = n()) %>%
  ggplot(aes(Wind,n)) +
    geom_bin2d(fill='pink') +
    geom_text(aes(label = n),vjust = 2, color = 'black') +
    labs(x = 'Tốc độ gió', y = 'Số lượng')
```
  - Đây là biểu đồ mật độ 2D, chia dữ liệu thành các ô vuông, mỗi ô vuông là 1 dữ liệu
  
  -  Biểu đồ biểu diễn số lượng từng mức của tốc độ gió
  
  - Ở mức 5 đến 10 có số lượng tốc độ gió nhiều nhất
  
  - Ở mức 10 đến 15 chứa số lượng tốc độ gió cao nhất là 15
  
# Đồ thị số 10

```{r}
dq <- airquality
    dq %>% ggplot(aes(x = Solar.R)) + 
        geom_density(color = 'black', fill = 'pink')+
        labs( x = 'Bức xạ mặt trời')
```

  - Qua đồ thị ta thấy mật độ bức xạ mặt trời cao nhất nằm vào khoảng 250 
  
    - Mật độ phân phối không đồng đều, tăng giảm liên tục
    
# Đồ thị số 11
```{r}
dq <- airquality
    dq %>% ggplot(aes(x = Ozone)) + 
        geom_density(color = 'red', fill = 'blue')+
        labs( x = 'nồng độ ozone')
```
  - Mật độ về nồng độ ozone tăng cao nhất ở khoảng dưới 50, sau đó giảm dần xuống tận 150
  
  - Vị trí có mật độ cao nhất nằm tầm khoảng 25
  
# Đồ thị số 12
```{r}
dq <- airquality
dq %>% group_by(Month) %>% summarise(m = mean(Wind)) %>%
  ggplot(aes(x = Month,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m))) +
    labs(x = 'Tháng', y = 'Tốc độ gió trung bình')
               
```
    - Biểu đồ biểu diễn tốc độ gió trung bình của từng tháng
    
    - Tháng 5 có tốc độ trung bình cao nhất là 12
    
    - Tháng 6 và tháng 9 có tốc độ gió trung bình bằng nhau là 10
    
    - Tháng 7 và 8 có tốc độ gió trung bình bằng nhau là 9 và là thấp nhất trong 5 tháng
  
  
# Đồ thị số 13
```{r}
dq <- airquality
dq %>% ggplot(aes(x = Month, y = Temp)) +
  geom_point(color = 'red') +
  geom_smooth(method = 'lm', color = 'green')
```
  - Cho biết mối quan hệ của nhiệt độ theo từng tháng
  
  - Tháng 5 có nhiệt độ thấp so với các tháng còn lại
  
  - Tháng 7, 8 có nhiệt độ tương đối cao 
  


# Đồ thị số 14
```{r}
dq <- airquality 
dq %>% ggplot(aes(x= Month, y= Wind)) +
 geom_area(fill="skyblue") +

  labs(x='Tháng', y='Tốc độ gió')
```
  - Biểu đồ diện tích thể hiện kích thước về tốc độ gió theo từng tháng
  
  - Tốc độ gió tăng ở tháng 5 lên tháng 6
  
  - Có sự giảm sau khi đến tháng 7
  
  - Đến tháng 8 thì tăng lại và tháng 9 cũng tăng nhẹ
# Đồ thị số 15
```{r}
dq <- airquality
dq %>% ggplot(aes(x= Month, y= Ozone)) +
geom_bin_2d() +
  labs(x='Tháng', y='Ozone')
```
  - Biểu đồ biểu diễn nồng độ ozone theo tháng
  
  - Nồng độ ozone thấp có màu đậm và nồng độ ozone cao thì màu càng nhạt
  
  - Tháng 6 là tháng có nồng độ ozone thấp nhất
  
  - Tháng 8 có số lượng nồng độ ozone nhiều nhất
  
# Đồ thị số 16
```{r}
dq <- airquality
dq %>% ggplot(aes(x= Solar.R)) +
geom_dotplot() +
  labs(x='Bức xạ mặt trời')
```
  - Mỗi chấm trên biểu đồ thể hiện một giá trị của bức xạ mặt trời
  
  - Bức xạ từ 200 tới 300 có số lượng nhiều và mật độ cao 
  
  - Bức xạ trên 300 có số lượng ít và mật độ thấp nhất

# Đồ thị số 17
```{r}
dq <- airquality
dq %>% group_by(Month) %>% summarise(m = mean(Temp)) %>%
  ggplot(aes(x = Month,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m))) +
    labs(x = 'Tháng', y = 'Nhiệt độ trung bình')
```
  - Biểu đồ biểu diễn nhiệt độ trung bình của từng tháng
  
  - Nhiệt độ trung bình tháng 7 và tháng 8 là bằng nhau: 84
  
  - Nhiệt độ trung bình tháng 6 là nhỏ nhất: 66
  
# Đồ thị số 18
```{r}
dq <- airquality
dq <- dq %>% mutate(WindC = cut(Wind,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
dq %>% ggplot(aes(x = WindC)) +
  geom_bar(fill = 'pink') +
coord_flip()
```
  - Biểu đồ biểu diễn số lượng các cấp độ của tốc độ gió
  
  - Tốc độ gió nhỏ có số lượng nhiều nhất sau đó đến vừa
  
  - Tốc độ gió rất lớn có số lượng ít nhất
  
# Đồ thị số 19

```{r}
dq <- airquality
dq <- dq %>% mutate(tempc = cut(Temp,3, label = c('nhỏ','vừa','lớn')))
dq %>% ggplot(aes(x = tempc)) +
  geom_bar(fill = 'blue') 

```
  - Biểu đồ biểu diễn cấp độ của nhiệt độ
  
  - Cấp độ vừa có số lượng nhiều nhất, sau đó tới lớn và ít nhất là nhỏ

# Đồ thị số 20
```{r}
dq <- airquality
dq %>% ggplot(aes(x = Ozone)) +
  geom_histogram(binwidth = 20, fill = 'blue', color = 'red')

```

    - Biểu đồ biểu diễn sự thay đổi của nồng độ Ozone
    
    - Nồng độ Ozone phân phối không đồng đều
    
    - Nồng độ ở mức dưới 50 là lớn nhất, sau đó giảm dần về 150