THÔNG TIN VỀ CHẤT LƯỢNG KHÔNG KHÍ TẠI NEW YORK TỪ THÁNG 5 NĂM 1973 ĐẾN THÁNG 9 NĂM 1973

  1. Thông tin bộ dữ liệu
  • Ozone: Nồng độ ozone (O3)

  • Solar.R: Bức xạ mặt trời

  • Wind: Tốc độ gió

  • Temp: Nhiệt độ

  • Month: Tháng

  • Day: Ngày

  • Bộ dữ liệu có 153 quan sát, 6 biến

library(datasets)
data(package = 'datasets')
library(ggplot2)
data(package = 'ggplot2')
dq <- airquality

Đồ thị số 1

library(tidyverse)
library(scales)
  dq <- airquality
    dq %>% group_by(Wind) %>% summarise(n = n()) %>%
  ggplot(aes(Wind,n)) +
    geom_col(fill='skyblue') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Tốc độ gió', y = 'Số lượng')

  • Ta Phân loại tốc độ gió theo từng mức độ và tính số lượng của từng mức độ.

  • x là từng mức độ của tốc độ gió, y là số lượng của từng mức .

  • Các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2 đơn vị. Màu của các cột là màu xanh da trời.

  • Biểu đồ thể hiện sự phân bố số lượng theo từng mức tốc độ gió.

  • Có một số mức tốc độ gió có số lượng cao hơn, cụ thể là:

    • Mức 5-10 mph (dặm/giờ) có số lượng cao nhất.

    • Mức 10-15 mph có số lượng cao thứ hai.

  • Có một số mức tốc độ gió có số lượng thấp hơn, cụ thể là:

    • Mức dưới 5 mph và trên 20 mph có số lượng thấp nhất.

Đồ thị số 2

dq <- airquality
dq <- dq %>% group_by(Month, Ozone) %>% summarise(n = n())
## `summarise()` has grouped output by 'Month'. You can override using the
## `.groups` argument.
dq %>% ggplot(aes(x = Month, y = n)) +
  geom_col(data = dq %>% filter( Month== '5'), fill = 'purple') +
  geom_col(data = dq %>% filter(Month == '9'), fill = 'turquoise')

  • Ta phân loại nồng độ theo các tháng sau đó tính số lượng .
  • Ở biểu đồ trên thì ta gắn x là Month, y là nồng độ ozone của 2 tháng 5 và 9;
  • Ta sẽ lọc nồng độ ozone của tháng 5, cột biểu đồ có màu tím và nồng độ của tháng 9, biểu đồ có màu xanh ngọc.
  • Tổng số lượng nồng độ ozone trong tháng 5 cao hơn so với tháng 9.
  • Tổng số lượng nồng độ ozone trong tháng 5 với mức trung bình khoảng 31 ppb.
  • Tổng số lượng nồng độ ozone trong tháng 9 với mức trung bình khoảng 30 ppb.

Đồ thị số 3

dq <- airquality
dq %>% ggplot(aes(x = Solar.R)) +
  geom_histogram(binwidth = 10, fill = 'blue', color = 'red')
## Warning: Removed 7 rows containing non-finite values (`stat_bin()`).

- Biểu đồ thể hiện sự thay đổi cường độ bức xạ mặt trời

  • Bức xạ ở mức từ 200 đến 300 có có số lượng cường độ là nhiều nhất

  • Bức xạ ở mức từ 0 đến 100 có có số lượng cường độ là ít nhất

Đồ thị số 4

dq <- airquality
dq %>% ggplot(aes(x = Wind)) +
  geom_density(fill = 'red')

- Qua biểu đồ ta thấy hầu hết tốc độ gió đều nằm trong khoảng 5 đến 15

  • Ở mức tốc độ gió đạt 10mph có số lượng cao nhất

Đồ thị số 5

dq <- airquality
dq %>% group_by(Temp) %>% summarise(n = n()) %>%
  ggplot(aes(x = '', y = n,fill = Temp)) +
    geom_col(color = 'black') +
    coord_polar('y') +
    geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
 
    theme_void()

  • Biểu đồ biểu diễn số lượng từng mức nhiệt độ

  • Ở mức nhiệt độ càng cao thì có số lượng càng ít

  • Số lượng nhiệt độ nhiều nhất là 11 với mức nhiệt độ là từ 70 đến 80

Đồ thị số 6

dq <- airquality
dq %>% ggplot(aes(x = Day, y = Month, color = Solar.R)) +
  geom_point()

- Biểu đồ biểu diễn bức xạ mặt trời theo từng tháng từ tháng 5 đến tháng 9

  • Qua đồ thị ta thấy tháng 7 ,8 là những tháng có mức bức xạ cao nhất với nhiều số lượng bức xạ từ 200 đến 300

Đồ thị số 7

dq <- airquality
    dq %>% group_by(Temp) %>% summarise(n = n()) %>%
  ggplot(aes(Temp,n)) +
    geom_area(fill='skyblue') +
    geom_text(aes(label = n),vjust = 2, color = 'red') +
    labs(x = 'Nhiệt độ', y = 'Số lượng')

- Biểu đồ miền biểu diễn số lượng các mức nhiệt độ

  • Qua biểu đồ ta thấy ở nhiệt độ 80 độ có số lượng nhiều nhất là 11

  • Số lượng có xu hướng tăng dần từ mức 60 đến 80 và sau đó giảm dần từ 80 xuống 90

Đồ thị số 8

dq <- airquality
    dq %>% ggplot(aes(x = Temp)) + 
        geom_density(color = 'red', fill = 'skyblue')+
        labs( x = 'Nhiệt độ')

- Qua biểu đồ ta thấy được: mật độ nhiệt độ phân phối không đồng đều

  • Nhiệt độ ở mức 80 độ có mật độ cao nhất

  • Mức nhiệt độ từ 60 có mật độ tăng dần đến 80 độ sau đó giảm dần xuống 90

Đồ thị số 9

dq <- airquality
    dq %>% group_by(Wind) %>% summarise(n = n()) %>%
  ggplot(aes(Wind,n)) +
    geom_bin2d(fill='pink') +
    geom_text(aes(label = n),vjust = 2, color = 'black') +
    labs(x = 'Tốc độ gió', y = 'Số lượng')

- Đây là biểu đồ mật độ 2D, chia dữ liệu thành các ô vuông, mỗi ô vuông là 1 dữ liệu

  • Biểu đồ biểu diễn số lượng từng mức của tốc độ gió

  • Ở mức 5 đến 10 có số lượng tốc độ gió nhiều nhất

  • Ở mức 10 đến 15 chứa số lượng tốc độ gió cao nhất là 15

Đồ thị số 10

dq <- airquality
    dq %>% ggplot(aes(x = Solar.R)) + 
        geom_density(color = 'black', fill = 'pink')+
        labs( x = 'Bức xạ mặt trời')
## Warning: Removed 7 rows containing non-finite values (`stat_density()`).

  • Qua đồ thị ta thấy mật độ bức xạ mặt trời cao nhất nằm vào khoảng 250

    • Mật độ phân phối không đồng đều, tăng giảm liên tục

Đồ thị số 11

dq <- airquality
    dq %>% ggplot(aes(x = Ozone)) + 
        geom_density(color = 'red', fill = 'blue')+
        labs( x = 'nồng độ ozone')
## Warning: Removed 37 rows containing non-finite values (`stat_density()`).

- Mật độ về nồng độ ozone tăng cao nhất ở khoảng dưới 50, sau đó giảm dần xuống tận 150

  • Vị trí có mật độ cao nhất nằm tầm khoảng 25

Đồ thị số 12

dq <- airquality
dq %>% group_by(Month) %>% summarise(m = mean(Wind)) %>%
  ggplot(aes(x = Month,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m))) +
    labs(x = 'Tháng', y = 'Tốc độ gió trung bình')

- Biểu đồ biểu diễn tốc độ gió trung bình của từng tháng

- Tháng 5 có tốc độ trung bình cao nhất là 12

- Tháng 6 và tháng 9 có tốc độ gió trung bình bằng nhau là 10

- Tháng 7 và 8 có tốc độ gió trung bình bằng nhau là 9 và là thấp nhất trong 5 tháng

Đồ thị số 13

dq <- airquality
dq %>% ggplot(aes(x = Month, y = Temp)) +
  geom_point(color = 'red') +
  geom_smooth(method = 'lm', color = 'green')
## `geom_smooth()` using formula = 'y ~ x'

- Cho biết mối quan hệ của nhiệt độ theo từng tháng

  • Tháng 5 có nhiệt độ thấp so với các tháng còn lại

  • Tháng 7, 8 có nhiệt độ tương đối cao

Đồ thị số 14

dq <- airquality 
dq %>% ggplot(aes(x= Month, y= Wind)) +
 geom_area(fill="skyblue") +

  labs(x='Tháng', y='Tốc độ gió')

- Biểu đồ diện tích thể hiện kích thước về tốc độ gió theo từng tháng

  • Tốc độ gió tăng ở tháng 5 lên tháng 6

  • Có sự giảm sau khi đến tháng 7

  • Đến tháng 8 thì tăng lại và tháng 9 cũng tăng nhẹ # Đồ thị số 15

dq <- airquality
dq %>% ggplot(aes(x= Month, y= Ozone)) +
geom_bin_2d() +
  labs(x='Tháng', y='Ozone')
## Warning: Removed 37 rows containing non-finite values (`stat_bin2d()`).

- Biểu đồ biểu diễn nồng độ ozone theo tháng

  • Nồng độ ozone thấp có màu đậm và nồng độ ozone cao thì màu càng nhạt

  • Tháng 6 là tháng có nồng độ ozone thấp nhất

  • Tháng 8 có số lượng nồng độ ozone nhiều nhất

Đồ thị số 16

dq <- airquality
dq %>% ggplot(aes(x= Solar.R)) +
geom_dotplot() +
  labs(x='Bức xạ mặt trời')
## Bin width defaults to 1/30 of the range of the data. Pick better value with
## `binwidth`.
## Warning: Removed 7 rows containing missing values (`stat_bindot()`).

- Mỗi chấm trên biểu đồ thể hiện một giá trị của bức xạ mặt trời

  • Bức xạ từ 200 tới 300 có số lượng nhiều và mật độ cao

  • Bức xạ trên 300 có số lượng ít và mật độ thấp nhất

Đồ thị số 17

dq <- airquality
dq %>% group_by(Month) %>% summarise(m = mean(Temp)) %>%
  ggplot(aes(x = Month,y = m)) +
    geom_col(position = 'dodge') +
    geom_text(aes(label = round(m))) +
    labs(x = 'Tháng', y = 'Nhiệt độ trung bình')

- Biểu đồ biểu diễn nhiệt độ trung bình của từng tháng

  • Nhiệt độ trung bình tháng 7 và tháng 8 là bằng nhau: 84

  • Nhiệt độ trung bình tháng 6 là nhỏ nhất: 66

Đồ thị số 18

dq <- airquality
dq <- dq %>% mutate(WindC = cut(Wind,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
dq %>% ggplot(aes(x = WindC)) +
  geom_bar(fill = 'pink') +
coord_flip()

- Biểu đồ biểu diễn số lượng các cấp độ của tốc độ gió

  • Tốc độ gió nhỏ có số lượng nhiều nhất sau đó đến vừa

  • Tốc độ gió rất lớn có số lượng ít nhất

Đồ thị số 19

dq <- airquality
dq <- dq %>% mutate(tempc = cut(Temp,3, label = c('nhỏ','vừa','lớn')))
dq %>% ggplot(aes(x = tempc)) +
  geom_bar(fill = 'blue') 

- Biểu đồ biểu diễn cấp độ của nhiệt độ

  • Cấp độ vừa có số lượng nhiều nhất, sau đó tới lớn và ít nhất là nhỏ

Đồ thị số 20

dq <- airquality
dq %>% ggplot(aes(x = Ozone)) +
  geom_histogram(binwidth = 20, fill = 'blue', color = 'red')
## Warning: Removed 37 rows containing non-finite values (`stat_bin()`).

- Biểu đồ biểu diễn sự thay đổi của nồng độ Ozone

- Nồng độ Ozone phân phối không đồng đều

- Nồng độ ở mức dưới 50 là lớn nhất, sau đó giảm dần về 150
