THÔNG TIN VỀ CHẤT LƯỢNG KHÔNG KHÍ TẠI NEW YORK TỪ THÁNG 5 NĂM 1973
ĐẾN THÁNG 9 NĂM 1973
- Thông tin bộ dữ liệu
library(datasets)
data(package = 'datasets')
library(ggplot2)
data(package = 'ggplot2')
dq <- airquality
Đồ thị số 1
library(tidyverse)
library(scales)
dq <- airquality
dq %>% group_by(Wind) %>% summarise(n = n()) %>%
ggplot(aes(Wind,n)) +
geom_col(fill='skyblue') +
geom_text(aes(label = n),vjust = 2, color = 'red') +
labs(x = 'Tốc độ gió', y = 'Số lượng')

Ta Phân loại tốc độ gió theo từng mức độ và tính số lượng của
từng mức độ.
x là từng mức độ của tốc độ gió, y là số lượng của từng mức
.
Các số liệu có màu đỏ, được điều chỉnh ở vị trí dọc cách cột 2
đơn vị. Màu của các cột là màu xanh da trời.
Biểu đồ thể hiện sự phân bố số lượng theo từng mức tốc độ
gió.
Có một số mức tốc độ gió có số lượng cao hơn, cụ thể là:
Có một số mức tốc độ gió có số lượng thấp hơn, cụ thể là:
- Mức dưới 5 mph và trên 20 mph có số lượng thấp nhất.
Đồ thị số 2
dq <- airquality
dq <- dq %>% group_by(Month, Ozone) %>% summarise(n = n())
## `summarise()` has grouped output by 'Month'. You can override using the
## `.groups` argument.
dq %>% ggplot(aes(x = Month, y = n)) +
geom_col(data = dq %>% filter( Month== '5'), fill = 'purple') +
geom_col(data = dq %>% filter(Month == '9'), fill = 'turquoise')

- Ta phân loại nồng độ theo các tháng sau đó tính số lượng .
- Ở biểu đồ trên thì ta gắn x là Month, y là nồng độ ozone của 2 tháng
5 và 9;
- Ta sẽ lọc nồng độ ozone của tháng 5, cột biểu đồ có màu tím và nồng
độ của tháng 9, biểu đồ có màu xanh ngọc.
- Tổng số lượng nồng độ ozone trong tháng 5 cao hơn so với tháng
9.
- Tổng số lượng nồng độ ozone trong tháng 5 với mức trung bình khoảng
31 ppb.
- Tổng số lượng nồng độ ozone trong tháng 9 với mức trung bình khoảng
30 ppb.
Đồ thị số 3
dq <- airquality
dq %>% ggplot(aes(x = Solar.R)) +
geom_histogram(binwidth = 10, fill = 'blue', color = 'red')
## Warning: Removed 7 rows containing non-finite values (`stat_bin()`).
- Biểu đồ thể hiện sự thay đổi cường độ bức xạ mặt trời
Đồ thị số 4
dq <- airquality
dq %>% ggplot(aes(x = Wind)) +
geom_density(fill = 'red')
- Qua biểu đồ ta thấy hầu hết tốc độ gió đều nằm trong khoảng 5 đến
15
- Ở mức tốc độ gió đạt 10mph có số lượng cao nhất
Đồ thị số 5
dq <- airquality
dq %>% group_by(Temp) %>% summarise(n = n()) %>%
ggplot(aes(x = '', y = n,fill = Temp)) +
geom_col(color = 'black') +
coord_polar('y') +
geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
theme_void()

Biểu đồ biểu diễn số lượng từng mức nhiệt độ
Ở mức nhiệt độ càng cao thì có số lượng càng ít
Số lượng nhiệt độ nhiều nhất là 11 với mức nhiệt độ là từ 70 đến
80
Đồ thị số 6
dq <- airquality
dq %>% ggplot(aes(x = Day, y = Month, color = Solar.R)) +
geom_point()
- Biểu đồ biểu diễn bức xạ mặt trời theo từng tháng từ tháng 5 đến tháng
9
- Qua đồ thị ta thấy tháng 7 ,8 là những tháng có mức bức xạ cao nhất
với nhiều số lượng bức xạ từ 200 đến 300
Đồ thị số 7
dq <- airquality
dq %>% group_by(Temp) %>% summarise(n = n()) %>%
ggplot(aes(Temp,n)) +
geom_area(fill='skyblue') +
geom_text(aes(label = n),vjust = 2, color = 'red') +
labs(x = 'Nhiệt độ', y = 'Số lượng')
- Biểu đồ miền biểu diễn số lượng các mức nhiệt độ
Đồ thị số 8
dq <- airquality
dq %>% ggplot(aes(x = Temp)) +
geom_density(color = 'red', fill = 'skyblue')+
labs( x = 'Nhiệt độ')
- Qua biểu đồ ta thấy được: mật độ nhiệt độ phân phối không đồng đều
Đồ thị số 9
dq <- airquality
dq %>% group_by(Wind) %>% summarise(n = n()) %>%
ggplot(aes(Wind,n)) +
geom_bin2d(fill='pink') +
geom_text(aes(label = n),vjust = 2, color = 'black') +
labs(x = 'Tốc độ gió', y = 'Số lượng')
- Đây là biểu đồ mật độ 2D, chia dữ liệu thành các ô vuông, mỗi ô vuông
là 1 dữ liệu
Biểu đồ biểu diễn số lượng từng mức của tốc độ gió
Ở mức 5 đến 10 có số lượng tốc độ gió nhiều nhất
Ở mức 10 đến 15 chứa số lượng tốc độ gió cao nhất là 15
Đồ thị số 10
dq <- airquality
dq %>% ggplot(aes(x = Solar.R)) +
geom_density(color = 'black', fill = 'pink')+
labs( x = 'Bức xạ mặt trời')
## Warning: Removed 7 rows containing non-finite values (`stat_density()`).

Đồ thị số 11
dq <- airquality
dq %>% ggplot(aes(x = Ozone)) +
geom_density(color = 'red', fill = 'blue')+
labs( x = 'nồng độ ozone')
## Warning: Removed 37 rows containing non-finite values (`stat_density()`).
- Mật độ về nồng độ ozone tăng cao nhất ở khoảng dưới 50, sau đó giảm
dần xuống tận 150
- Vị trí có mật độ cao nhất nằm tầm khoảng 25
Đồ thị số 12
dq <- airquality
dq %>% group_by(Month) %>% summarise(m = mean(Wind)) %>%
ggplot(aes(x = Month,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m))) +
labs(x = 'Tháng', y = 'Tốc độ gió trung bình')
- Biểu đồ biểu diễn tốc độ gió trung bình của từng tháng
- Tháng 5 có tốc độ trung bình cao nhất là 12
- Tháng 6 và tháng 9 có tốc độ gió trung bình bằng nhau là 10
- Tháng 7 và 8 có tốc độ gió trung bình bằng nhau là 9 và là thấp nhất trong 5 tháng
Đồ thị số 13
dq <- airquality
dq %>% ggplot(aes(x = Month, y = Temp)) +
geom_point(color = 'red') +
geom_smooth(method = 'lm', color = 'green')
## `geom_smooth()` using formula = 'y ~ x'
- Cho biết mối quan hệ của nhiệt độ theo từng tháng
Đồ thị số 14
dq <- airquality
dq %>% ggplot(aes(x= Month, y= Wind)) +
geom_area(fill="skyblue") +
labs(x='Tháng', y='Tốc độ gió')
- Biểu đồ diện tích thể hiện kích thước về tốc độ gió theo từng
tháng
Tốc độ gió tăng ở tháng 5 lên tháng 6
Có sự giảm sau khi đến tháng 7
Đến tháng 8 thì tăng lại và tháng 9 cũng tăng nhẹ # Đồ thị số
15
dq <- airquality
dq %>% ggplot(aes(x= Month, y= Ozone)) +
geom_bin_2d() +
labs(x='Tháng', y='Ozone')
## Warning: Removed 37 rows containing non-finite values (`stat_bin2d()`).
- Biểu đồ biểu diễn nồng độ ozone theo tháng
Nồng độ ozone thấp có màu đậm và nồng độ ozone cao thì màu càng
nhạt
Tháng 6 là tháng có nồng độ ozone thấp nhất
Tháng 8 có số lượng nồng độ ozone nhiều nhất
Đồ thị số 16
dq <- airquality
dq %>% ggplot(aes(x= Solar.R)) +
geom_dotplot() +
labs(x='Bức xạ mặt trời')
## Bin width defaults to 1/30 of the range of the data. Pick better value with
## `binwidth`.
## Warning: Removed 7 rows containing missing values (`stat_bindot()`).
- Mỗi chấm trên biểu đồ thể hiện một giá trị của bức xạ mặt trời
Đồ thị số 17
dq <- airquality
dq %>% group_by(Month) %>% summarise(m = mean(Temp)) %>%
ggplot(aes(x = Month,y = m)) +
geom_col(position = 'dodge') +
geom_text(aes(label = round(m))) +
labs(x = 'Tháng', y = 'Nhiệt độ trung bình')
- Biểu đồ biểu diễn nhiệt độ trung bình của từng tháng
Đồ thị số 18
dq <- airquality
dq <- dq %>% mutate(WindC = cut(Wind,5, label = c('rất nhỏ', 'nhỏ','vừa','lớn','rất lớn')))
dq %>% ggplot(aes(x = WindC)) +
geom_bar(fill = 'pink') +
coord_flip()
- Biểu đồ biểu diễn số lượng các cấp độ của tốc độ gió
Đồ thị số 19
dq <- airquality
dq <- dq %>% mutate(tempc = cut(Temp,3, label = c('nhỏ','vừa','lớn')))
dq %>% ggplot(aes(x = tempc)) +
geom_bar(fill = 'blue')
- Biểu đồ biểu diễn cấp độ của nhiệt độ
- Cấp độ vừa có số lượng nhiều nhất, sau đó tới lớn và ít nhất là
nhỏ
Đồ thị số 20
dq <- airquality
dq %>% ggplot(aes(x = Ozone)) +
geom_histogram(binwidth = 20, fill = 'blue', color = 'red')
## Warning: Removed 37 rows containing non-finite values (`stat_bin()`).

- Biểu đồ biểu diễn sự thay đổi của nồng độ Ozone
- Nồng độ Ozone phân phối không đồng đều
- Nồng độ ở mức dưới 50 là lớn nhất, sau đó giảm dần về 150
