Mục đích của chuỗi bài viết: là hướng dẫn về bộ công cụ SSV và GGPLOT2 và đồng thời tìm hiểu những thông tin thực và có ý nghĩa xung quanh chúng ta. Để từ đó người xem/ học viên có thể linh hoạt áp dụng vào công việc hoặc cuộc sống thực tiễn.

Trong bài viết này Tôi giới thiệu với các bạn một số nội dung thống kê để tìm hiểu về Thông Số Độ Ẩm trung bình của Việt Nam qua các tháng, tại các trạm quan trắc từ năm 2002 đến năm 2017. Dữ liệu lấy từ trang Web của Tổng cục thống kê https://www.gso.gov.vn/default.aspx?tabid=713

Hoặc lấy từ đây, dữ liệu đã được format để phân tích (thông tin của dữ liệu là nguyên gốc).

https://www.kaggle.com/ngvietlg/vietnam-himidity-from-year-2002-to-2017/download

Hãy xem file dữ liệu rồi hãy tiếp tục phân tích.

Trình tự Phân tích thống kê là 1. Mục đích là gì? a.Tìm hiểu thông tin Độ ẩm trung bình của Việt nam là bao nhiêu? b.So sánh độ ẩm giữa các vùng miền (Băc - Trung - Nam) c.So sánh độ ẩm giữa các Địa Phương nơi đặt trạm quan trắc ( như Hà Nội, Huế, TpHCM..) d… vân vân

  1. Phương pháp phân tích 2.1. Tải dữ liệu về từ link và lưu vào máy tính filename: VIETNAM HIMIDITY FROM YEAR 2002 TO 2017.xlsx Tuy nhiên trong bài này Tôi chỉ phân tích với dữ liệu năm 2017, còn các năm khác các bạn thoải mái thực hành.

2.2. Đọc dữ liệu đó vào R bằng câu lệnh

library(readxl)
humid <- read_excel("final/VIETNAM HIMIDITY FROM YEAR 2002 TO 2017.xlsx")
head(humid)
## # A tibble: 6 x 5
##   DO_AM THANG   NAM DIAPHUONG   VUNG 
##   <dbl> <dbl> <dbl> <chr>       <chr>
## 1    83     1  2017 Lai Chau    BAC  
## 2    82     1  2017 Son La      BAC  
## 3    83     1  2017 Tuyen Quang BAC  
## 4    77     1  2017 Ha Noi      BAC  
## 5    82     1  2017 Bai Chay    BAC  
## 6    84     1  2017 Nam Dinh    BAC

2.3. Kiểm tra thông tin dữ liệu Dữ liệu có 4 cột (Columns) gồm - DO_AM (độ ẩm) - THANG (tháng) - NAM (năm) - DIAPHUONG (địa phương) - VUNG (vùng)

2.4. Phân tích theo các mục đích Hãy kích hoạt bộ công cụ SSV

require(SSV)
## Loading required package: SSV
  1. Trung bình độ ẩm của Việt Nam là bao nhiêu? a1. Phân tích với lệnh DES_STATS (Descriptive Statistics)
des_stats(humid$DO_AM, plot=F)
##            Variables     Result
## 1              Count 180.000000
## 2                Min  70.000000
## 3                 Q1  78.000000
## 4               Mean  81.794444
## 5             Median  82.000000
## 6                 Q3  85.000000
## 7                Max  94.000000
## 8              Range  24.000000
## 9              StDEV   5.115097
## 10          Variance  26.164215
## 11               IQR   7.000000
## 12  Outlier_if_Lower  67.500000
## 13 Outlier_if_Higher  95.500000

Nhận xét: - Độ ẩm thấp nhất là 70% (Min) - Trung bình độ ẩm năm 2017 là 81.79% (Mean) - Có 25% số kết quả quan trắc là độ ẩm <= 78% (Q1) - Có 50% số kết quả quan trắc là độ ẩm <= 82% (Q2) - Có 75% số kết quả quan trắc là độ ẩm <= 85% (Q3) - Độ ẩm cao nhất là 94% (Max) - Độ biến động của độ ẩm là 24% (Range) - Độ lệch chuẩn của giá trị độ ẩm là 5% (StDEV)

a2. Phân tích với biểu đồ Boxplot

boxplots(y=humid$DO_AM)

  1. Trung bình độ ẩm của Việt Nam theo vùng miền
boxplots(y=humid$DO_AM, x=humid$VUNG)

Nhận xét: - Độ ẩm của Tây Nguyên là cao nhất (Median ~ 84%) - Độ ẩm của Miền Trung là cao nhì (Median ~ 83%) - Độ ẩm của Miền Bắc là cao ba (Median ~ 82%) - Độ ẩm của miền Nam là thấp nhất (Median ~ 80%)

  1. Trung bình độ ẩm của Việt Nam theo địa phương
boxplots(y=humid$DO_AM, x=humid$DIAPHUONG)

sort(unique(humid$DIAPHUONG))
##  [1] "Bai Chay"    "Ca Mau"      "Da Lat"      "Da Nang"     "Ha Noi"     
##  [6] "Hue"         "Lai Chau"    "Nam Dinh"    "Nha Trang"   "Pleiku"     
## [11] "Qui Nhon"    "Son La"      "Tuyen Quang" "Vinh"        "Vung Tau"

Nhận xét: - Độ ẩm cao nhất là Huế rồi đên Đà Lạt.. - Độ ẩm thấp nhất là Hà nội.. - các bạn luận tiếp xem đia phương các bạn như thế nào nhé..

  1. Trung bình độ ẩm của Việt Nam theo các tháng trong năm
boxplots(y=humid$DO_AM, x=as.factor(humid$THANG))

Nhận xét: - Độ ẩm thấp nhất là tháng 2 (tuy nhiên có những nơi độ ẩm lại cực cao gần 100%) - Độ ẩm cao nhất là tháng 8 - các bạn luận tiếp xem các tháng khác nhé..

  1. Trung bình độ ẩm của Việt Nam theo các THÁNG trong năm và VÙNG note: Kiểu phân tích này thì phải dùng gói công cụ khác là GGPLOT2
require(ggplot2)
## Loading required package: ggplot2
ggplot(data=humid,aes(y=humid$DO_AM, x=as.factor(humid$THANG), fill=humid$VUNG)) + facet_wrap(~humid$VUNG) + geom_boxplot()

Nhận xét: - Miền Bắc: độ ẩm thấp nhất tháng 2 sau đó tăng lên cao vào tháng 3, tháng 6,7,8 thì cáo nhất. - Miền Nam: độ ẩm thấp nhất vào các tháng 1,2,3,4 sau đó tăng lên cao vào tháng 5,6,7,8,9,10,11 và tháng 12 thì lại giảm xuống. Gần như là 2 khoảng (12-1-2-3-4) và (5-6-7-8-9-10-11). -Miền Trung và Tây nguyên các bạn tự biên dịch nhé.

  1. XEM CẢ CHU KỲ 2002 ĐẾN 2017 THEO MIỀN VÀ THÁNG
full <- read_excel("final/VIETNAM HIMIDITY FROM YEAR 2002 TO 2017.xlsx", sheet=2)
require(ggplot2)
ggplot(data=full,aes(y=full$DO_AM, x=as.factor(full$THANG), fill=full$VUNG)) + facet_wrap(~full$VUNG) + geom_boxplot()

Nhận xét: - Miền Bắc: Độ ẩm miền Bắc có vẻ đều đều trong các tháng (không quá khác biệt) - Miền Nam: Độ ẩm miền Nam có vẻ tách thành 2 khoảng thời gian - Miền Trung: Độ ẩm thấp từ các tháng 5,6,7,8 còn các tháng khác là tương đương nhau - Tây Nguyên: Các tháng 1,2,3,4 thấp rồi tăng dần lên cao (5,6,7,8,9) và bắt đầu giảm dần (10,11,12)..

Kết luận: Toàn cảnh bức tranh về Độ Ẩm của Việt Nam có thể xử lý đơn giản bằng SSV hoặc phân tích phức tạp hơn thì dùng GGPLOT2.

Hết rồi. Chúc các Bạn có thêm thông tin và đồng thời thêm công cụ để viện dẫn áp dụng vào công việc của các Bạn.

Chào Thân ái - Chúc Thành Công.

#================================================. Viet Nguyen - #================================================.