12:32:57, 27 - 01 - 2024

Nhiệm vụ 3.1

Giới thiệu bộ dữ liệu

Đây là bộ dữ liệu về dân số của các nước trên thế giới từ năm 1950 tới năm 2021. Và dân số trong bộ dữ liệu này sẽ được chia thành các độ tuổi khác nhau.

Sau đây ta sẽ tiến hành đọc dữ liệu và xem dữ liệu có những gì

# Lệnh đọc dữ liệu vào R với dữ liệu là file csv và gán vào pop
pop <- read.csv("D:\\Rpubs\\population-and-demography.csv") 

Ta sẽ dùng lệnh str để xem cấu trúc của dữ liệu như thế nào

str(pop) # Lệnh để xem cấu trúc của bộ dữ liệu
## 'data.frame':    18288 obs. of  24 variables:
##  $ Country.name                              : chr  "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
##  $ Year                                      : int  1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 ...
##  $ Population                                : num  7480464 7571542 7667534 7764549 7864289 ...
##  $ Population.of.children.under.the.age.of.1 : num  301735 299368 305393 311574 317584 ...
##  $ Population.of.children.under.the.age.of.5 : int  1248282 1246857 1248220 1254725 1267817 1291129 1322342 1354752 1387274 1421808 ...
##  $ Population.of.children.under.the.age.of.15: int  3068855 3105444 3145070 3186382 3231060 3281470 3337026 3396048 3455343 3518528 ...
##  $ Population.under.the.age.of.25            : num  4494349 4552138 4613604 4676232 4741371 ...
##  $ Population.aged.15.to.64.years            : num  4198587 4250002 4303436 4356242 4408474 ...
##  $ Population.older.than.15.years            : num  4411609 4466098 4522464 4578167 4633229 ...
##  $ Population.older.than.18.years            : num  3946595 3993640 4041439 4088379 4136116 ...
##  $ Population.at.age.1                       : num  258652 254304 252906 258717 264765 ...
##  $ Population.aged.1.to.4.years              : num  946547 947489 942827 943151 950233 ...
##  $ Population.aged.5.to.9.years              : int  966210 991791 1017993 1039950 1055592 1062420 1063212 1065357 1071666 1084972 ...
##  $ Population.aged.10.to.14.years            : int  854363 866796 878857 891707 907651 927921 951472 975939 996403 1011748 ...
##  $ Population.aged.15.to.19.years            : int  757113 768616 781411 794308 806216 817550 828600 839588 851433 867048 ...
##  $ Population.aged.20.to.29.years            : int  1241348 1260904 1280288 1298803 1316768 1334989 1353958 1374043 1393789 1414034 ...
##  $ Population.aged.30.to.39.years            : int  909953 922765 935638 948321 961484 975801 991166 1007440 1023595 1040441 ...
##  $ Population.aged.40.to.49.years            : int  661807 667015 672491 678064 684153 691279 699431 708537 717938 728233 ...
##  $ Population.aged.50.to.59.years            : int  467170 468881 470898 472969 475117 477664 480665 484018 487393 491447 ...
##  $ Population.aged.60.to.69.years            : int  271905 273286 274852 276577 278210 279789 281376 282918 284592 286551 ...
##  $ Population.aged.70.to.79.years            : int  92691 94358 96026 97705 99298 100839 102385 103932 105508 107136 ...
##  $ Population.aged.80.to.89.years            : int  9499 10155 10721 11254 11793 12342 12890 13428 13959 14495 ...
##  $ Population.aged.90.to.99.years            : int  123 118 139 166 190 210 233 255 277 307 ...
##  $ Population.older.than.100.years           : num  0 0 0 0 0 0 0 0 0 0 ...

Ta sẽ giải thích kết quả mà câu lệnh đã trả:

  • Bộ dữ liệu này là data frame, bao gồm 18288 quan sát và 24 biến
  • Ở cột 1 là tên biến, cột 2 là kiểu biến, cột 3 là những quan sát
  • Ở cột 2 có những ký hiệu:
    • “chr”: Kiểu biến là ký tự
    • “int”: Kiểu biến là số nguyên
    • “num”: Kiểu biến là sỗ thực
  • Bộ dữ liệu có 1 biến định tính, 23 biến định lượng trong đó biến “Year” là biến thể hiện năm quan sát nên không có ý nghĩa khi tính toán.
  • Giải thích tên biến:
    • Country.name: Tên quốc gia
    • Year: Năm quan sát
    • Population: Tổng dân số
    • Population.of.children.under.the.age.of.1: Trẻ em có độ tuổi dưới 1
    • Population.of.children.under.the.age.of.5: Trẻ em có độ tuổi dưới 5
    • Population.of.children.under.the.age.of.15: Trẻ em có độ tuổi dưới 15
    • Population.under.the.age.of.25: Dân số có độ tuổi dưới 25
    • Population.aged.15.to.64.years: Dân số có độ tuổi từ 15 đến 64
    • Population.older.than.15.years: Dân số có độ tuổi lớn hơn 15
    • Population.older.than.18.years: Dân số có độ tuổi lớn hơn 18
    • Population.at.age.1: Dân số có độ tuổi là 1
    • Population.aged.1.to.4.years: Dân số có độ tuổi từ 1 đến 4
    • Population.aged.5.to.9.years: Dân số có độ tuổi từ 5 đến 9
    • Population.aged.10.to.14.years: Dân số có độ tuổi từ 10 đến 14
    • Population.aged.15.to.19.years: Dân số có độ tuổi từ 15 đến 19
    • Population.aged.20.to.29.years: Dân số có độ tuổi từ 20 đến 29
    • Population.aged.30.to.39.years: Dân số có độ tuổi từ 30 đến 39
    • Population.aged.40.to.49.years: Dân số có độ tuổi từ 40 đến 49
    • Population.aged.50.to.59.years: Dân số có độ tuổi từ 50 đến 59
    • Population.aged.60.to.69.years: Dân số có độ tuổi từ 60 đến 69
    • Population.aged.70.to.79.years: Dân số có độ tuổi từ 70 đến 79
    • Population.aged.80.to.89.years: Dân số có độ tuổi từ 80 đến 89
    • Population.aged.90.to.99.years: Dân số có độ tuổi từ 90 đến 99
    • Population.older.than.100.years: Dân số có độ tuổi lớn hơn 100

Ta tiếp tục có bao nhiêu quốc gia mà bộ dữ liệu đã quan sát

d <- table(pop$Country.name) # Lệnh lập bảng tần số mà tên các quốc gia được lặp lại
dim(d) # Lệnh xem số lượng quốc gia được quan sát
## [1] 254

Ta kiểm tra giá trị thiếu trong bộ dữ liệu

sum(is.na(pop)) # Lệnh xem có bao nhiêu giá trị thiếu của bộ dữ liệu
## [1] 0

Với kết quả trên thì bộ dữ liệu không có giá trị thiếu

Chọn ra bộ dữ liệu cần thiết

Ta sẽ dùng package “tidyverse” để rút trích ra bộ dữ liệu cần thiết. Sau đây ta sẽ chọn ra những biến có độ tuổi trong độ tuổi lao động là từ 15 tuổi đến 59 tuổi. Ta tiến hành chọn ra những biến cần thiết

library(tidyverse) # Lệnh gọi ra gói tidyverse
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.4.4     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.0
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
# Lệnh chọn ra các biến cần thiết để xử lý
pop2 <- pop %>% select(Country.name, Year, 
                       Population,
                       Population.aged.15.to.19.years,
                       Population.aged.20.to.29.years,
                       Population.aged.30.to.39.years,
                       Population.aged.40.to.49.years,
                       Population.aged.50.to.59.years)

Với câu lệnh trên ta đã chọn ra biến là:

  • Tên quốc gia
  • Năm
  • Tổng dân số
  • Dân số có độ tuổi từ 15 đến 19
  • Dân số có độ tuổi từ 20 đến 29
  • Dân số có độ tuổi từ 30 đến 39
  • Dân số có độ tuổi từ 40 đến 49
  • Dân số có độ tuổi từ 50 đến 59

Ta tiến hành đổi tên biến để dễ dàng thao tác hơn

# Lệnh đổi tên biến
pop2 <- pop2 %>% rename(Quốcgia = Country.name  ,
                        Năm = Year ,
                        DSố = Population ,
                        a15t19 = Population.aged.15.to.19.years,
                        a20t29 = Population.aged.20.to.29.years,
                        a30t39 = Population.aged.30.to.39.years,
                        a40t49 = Population.aged.40.to.49.years,
                        a50t59 = Population.aged.50.to.59.years)
names(pop2)
## [1] "Quốcgia" "Năm"     "DSố"     "a15t19"  "a20t29"  "a30t39"  "a40t49" 
## [8] "a50t59"

Với kết quả trên thì tên biến đã được đổi tương ứng với thứ tự biến ở trên. Sau đây ta sẽ chọn ra 3 quốc gia đông nhất thuộc châu Á, châu Âu và châu Phi với các nước lần lượt là:

  • Trung Quốc(China)
  • Ấn Độ(India)
  • Indonesia(Indonesia)
  • Nga(Russia)
  • Đức(Germany)
  • Thổ Nhĩ Kỳ(Turkey)
  • Nigeria(Nigeria)
  • Etiopia(Ethiopia)
  • Ai Cập(Egypt)

Những từ ở trong ngoặc là nhãn ứng với các quốc gia trong bộ dữ liệu. Ta tiến hành lọc dữ liệu

# Lệnh lọc ra các quốc gia ứng với nhãn của mỗi quốc gia
pop3 <- pop2 %>% filter(Quốcgia == "China"|
                        Quốcgia == "India"|
                        Quốcgia == "Indonesia"|
                        Quốcgia == "Russia"|
                        Quốcgia == "Germany"|
                        Quốcgia == "Turkey"|
                        Quốcgia == "Nigeria"|
                        Quốcgia == "Ethiopia"|
                        Quốcgia == "Egypt")

Vậy ta đã có được bộ dữ liệu bao gồm 9 quốc gia là 3 nước đông dân nhất của châu Á, châu Âu, châu Phi với dữ liệu là dân số ở trong độ tuổi lao động từ năm

Mã hoá dữ liệu

Ta sẽ nhóm các năm lại thành 2 thời kỳ là thế kỷ XX và thế kỷ XXI.

Ta dùng lệnh case_match. Lệnh này sẽ gán nhãn khi tìm thấy được ký tự giống với điều kiện đã cho trước

pop3$TKỳ <- pop3$Năm %>% case_match(1950:1999 ~ "TKXX",
                                      2000:2021 ~ "TKXXI")

Ta tiếp tục mã hoá dữ liệu bằng việc xác định xu hướng của dân số. Nếu dân số có độ tuổi từ 50-59 lớn hơn dân số có độ tuổi từ 15-19 thì sẽ được gán nhãn “Già hoá” và ngược lại thì sẽ gán nhãn là “Trẻ hoá”

# Lệnh gán nhãn
pop3$xuhuong <- if_else(pop3$a15t19<pop3$a50t59,"Già hoá","Trẻ hoá")

Ta sẽ lập ra bảng tần số. Bảng tần số sẽ theo biến Quốc gia và biến xu hướng và biến Thời kỳ. Ta sẽ dùng package “DT” để tạo ra bảng mô tả đẹp hơn

# Lệnh nhóm các quan sát theo quốc gia, xu hướng và thời kỳ và lập ra bảng tần số
d <- pop3 %>% group_by(Quốcgia,xuhuong,TKỳ) %>% summarise(n = n(),.groups = "drop")
library(DT) #Lệnh gọi ra package "DT"
# Tạo ra bảng bằng lệnh datatable
datatable(d,rownames = FALSE,colnames = c("Quốc gia","Xu hướng","Thời Kỳ","Tần số"),
          caption = "Bảng 1: Bảng tần số theo quốc gia và xu hướng")

Với bảng tần số trên đã cho ta thấy được:

  • Trung Quốc vào thế kỷ XX thì xu hướng dân số là trẻ hoá nhưng khi bước qua thế kỷ XXI thì xu hướng dân số lại là già hoá
  • Ai Cập qua các thời kỳ thì xu hướng dân số đều là trẻ hoá
  • Ethiopia qua các thời kỳ thì xu hướng dân số đều là trẻ hoá
  • Đức qua các thời kỳ thì xu hướng dân số đều là già hoá
  • Ấn Độ thì 2 thời kỳ đều là trẻ hoá nhưng khi lại có 2 năm thuộc thế kỷ XXI là già hoá
  • Indonesia thì thế kỷ XX và đầu thế kỷ XXI thì xu hướng dân số là trẻ hoá. Còn về sau đến năm 2021 thì xu hướng dân số là già hoá
  • Nigeria qua các thời kỳ đều có xu hướng dân số là trẻ hoá
  • Nga ở giữa thế kỷ XX thì có xu hướng dân số là trẻ hoá nhưng gần cuối XX và đầu thế kỷ XXI thì có xu hướng dân số là già hoá
  • Thổ Nhĩ Kỳ từ thế kỷ XX đến 10 năm đầu thế XXI có xu hướng dân số là trẻ hoá nhưng về sau đến năm 2021 có xu hướng dân số là già hoá

Phân tích số liệu

Sau đây chúng ta sẽ phân tích số liệu bằng việc tạo bảng thống kê mô tả. Bảng thống kê mô tả sẽ bao gồm các đại lượng đo lường sau:

  • Min: Giá trị nhỏ nhất
  • 1st Qu: Phân vị thứ nhất
  • Median: Trung vị (Phân vị thứ hai)
  • 3rd Qu: Phân bị thứ 3
  • Max: Giá trị lớn nhất
  • Mean: Giá trị trung bình Bảng thống kê mô tả đầu tiên sẽ tính toán các đại lượng đo lường theo các quốc gia và thời kỳ
# Lệnh lập bảng thống kê mô tả theo quốc gia và thời kỳ
tkmt1 <- pop3 %>% group_by(Quốcgia,TKỳ) %>%
                  summarise(min = min(DSố),
                            phânvị1 = quantile(DSố, probs = 0.25),
                            mean = mean(DSố),
                            phânvị2 = quantile(DSố, probs = 0.5),
                            phânvị3 = quantile(DSố, probs = 0.75),
                            max = max(DSố), .groups = "drop")
# Lệnh tạo ra bảng thống kê với tên các cột được đặt ở colnames và tạo ra tên bảng.
datatable(tkmt1, rownames = FALSE, colnames = c("Quốc gia",
                                                "Thời kỳ",
                                                "Giá trị nhỏ nhất",
                                                "Phân vị thứ 1",
                                                "Trung bình",
                                                "Trung vị",
                                                "Phân vị thứ 3",
                                                "Giá trị lớn nhất"),
          caption = "Bảng 2: Thống kê mô tả về dân số theo quốc gia và thời kỳ")

Chúng ta sẽ giải thích các đại lượng đo lường trên bảng thống kê mô tả:

  • Giá trị nhỏ nhất: Có 1 năm có dân số nhỏ nhất trong thời kỳ
  • Phân vị thứ 1:
    • Đối với thế kỷ XX: Sẽ có 13 năm có dân số nhỏ hơn hoặc bằng giá trị của phân vị thứ 1
    • Đối với thế kỷ XXI: Sẽ có 5 năm có dân số nhỏ giá trị của phân vị thứ nhất
  • Trung bình: Là dân số trung bình trong 1 thời kỳ, thường dùng để so sánh quốc gia nào có dân số đông hơn
  • Trung vị:
    • Đối với thế kỷ XX: Sẽ có 25 năm có dân số nhỏ hơn giá trị của trung vị
    • Đối với thế kỷ XXI: Sẽ có 11 năm có dân số nhỏ hơn hoặc bằng giá trị của trung vị
  • Phân vị thứ 3:
    • Đối với thế kỷ XX: Sẽ có 38 năm có dân số nhỏ hơn hoặc bằng giá trị của phân vị thứ 3
    • Đối với thế kỷ XXI: Sẽ có 15 năm có dân số nhỏ hơn giá trị của phân vị thứ 3
  • Giá trị lớn nhất: Có 1 năm có dân số lớn nhất trong thời kỳ

Sau đây ta sẽ dùng giá trị trung bình để so sánh dân số của những quốc gia trong các thời kỳ. Ở bảng trên có chức năng sắp xép lại các giá trị, ta sẽ click vào “Trung bình” nếu tam giác xuôi được in đậm thì các giá trị trung bình sẽ sắp xếp từ nhỏ tới lớn, nếu tam giác ngược được in đậm thì các giá trị trung bình sẽ sắp xếp từ lớn tới nhỏ. Ta tiến hành so sánh:

  • Thế kỷ XX: Theo như ta thấy được Trung Quốc có dân số đông nhất và Ethiopia có dân số nhỏ nhất trong thế kỷ XX. Ta dễ dàng thấy được khu vực châu Á luôn có dân số đông nhất tiếp đến là châu Âu và châu Phi.
  • Thế kỷ XXI: Trung Quốc lại dẫn đầu về dân số và quốc gia có dân số ít nhất là Thổ Nhĩ Kỳ.

Sau đây ta sẽ lấy ra 3 quốc gia có dân số trung bình đông nhất trong châu Á, châu Âu và châu Phi trong thế kỷ XXI lần lượt là: Trung Quốc, Nga, Nigeria. Ta sẽ tính toán giá trị trung bình của dân số trong độ tuổi lao động. Ta sẽ dùng lệnh across để tính toán thống kê nhiều biến. Trong câu lệnh, ta dùng starts_with(“a”) để lấy những cột có tên là a rồi sau đó tính giá trị trung bình của cột đó.

# Lệnh tạo ra bảng giá trị trung bình của dân số trong độ tuổi lao động
pop4 <- pop3 %>% filter(Quốcgia=="China"|Quốcgia=="Russia"|Quốcgia=="Nigeria") %>%
                  filter(TKỳ=="TKXXI") %>% 
                  group_by(Quốcgia) %>%
                  summarise(across(starts_with("a"), list(mean = mean))) 
# Lệnh tạo ra bảng giá trị trung bình với tên cột và tên bảng
datatable(pop4, rownames = F, colnames = c("Quốc Gia","15 đến 19 tuổi",
                                           "20 đến 29 tuổi", "30 đến 39 tuổi",
                                           "40 đến 49 tuổi","50 đến 59 tuổi"),
          caption = "Bảng 3: Dân số trung bình trong độ tuổi lao động ")

Từ bảng trên cho ta thấy được nguồn nhân lực trẻ (15 đến 29 tuổi) của Trung Quốc và Nigeria rất dồi dào nhưng Nga thì có nguồn nhân lực trẻ kém hơn rất nhiều so với 2 nước trên. Và nước Nga đang lâm vào tình trạng dân số bị già hoá điều này sẽ khiến năng suất bị giảm. Mặc dù có nguồn nhân lục trẻ dồi dào nhưng Trung Quốc cũng lâm vào tình trạng già hoá khi tổng dân số từ 40 đến 59 tuổi cao hơn so với nguồn nhân lực trẻ. Và Nigeria là nước có xu hướng trẻ hoá sẽ tạo ra nguồn nhân lực tốt hơn cho các nước châu Phi khác.

Nhiệm vụ 3.2

Mục tiêu phân tích

Để so sánh, xếp hạng và đánh giá giá trị sản xuất nông nghiệp của các quốc gia

Phương pháp phân tích

Sử dụng giá trị trung bình để so sánh giá trị giữa các quốc gia

Giới thiệu dữ liệu

Đây là bộ dữ liệu về giá trị sản xuất của 4 sản phẩm cà phê, gạo, đường, thịt heo của 4 quốc gia có nền nông nghiệp tiên tiến và Việt Nam: Việt Nam, Mỹ, Trung Quốc, Đức, Nhật Bản từ năm 2000 đến năm 2021. Bộ dữ liệu được lấy từ Faostat. Đơn vị của giá trị sản xuất là 1000 USD

Sau đây ta sẽ tiến hành đọc dữ liệu và xem dữ liệu có những gì

# Lệnh đọc dữ liệu với file dữ liệu là csv
agr <- read.csv("D:\\Rpubs\\FAOSTAT_data_en_1-27-2024 (4).csv")

Ta sẽ dùng lệnh str để xem cấu trúc của dữ liệu

# Lệnh cho biết cấu trúc của bộ dữ liệu
str(agr)
## 'data.frame':    274 obs. of  14 variables:
##  $ Domain.Code     : chr  "QV" "QV" "QV" "QV" ...
##  $ Domain          : chr  "Value of Agricultural Production" "Value of Agricultural Production" "Value of Agricultural Production" "Value of Agricultural Production" ...
##  $ Area.Code..M49. : int  159 159 159 159 159 159 159 159 159 159 ...
##  $ Area            : chr  "China" "China" "China" "China" ...
##  $ Element.Code    : int  57 57 57 57 57 57 57 57 57 57 ...
##  $ Element         : chr  "Gross Production Value (current thousand US$)" "Gross Production Value (current thousand US$)" "Gross Production Value (current thousand US$)" "Gross Production Value (current thousand US$)" ...
##  $ Item.Code..CPC. : num  1610 1610 1610 1610 21113 ...
##  $ Item            : chr  "Coffee, green" "Coffee, green" "Coffee, green" "Coffee, green" ...
##  $ Year.Code       : int  2010 2011 2012 2013 2000 2001 2002 2003 2004 2005 ...
##  $ Year            : int  2010 2011 2012 2013 2000 2001 2002 2003 2004 2005 ...
##  $ Unit            : chr  "1000 USD" "1000 USD" "1000 USD" "1000 USD" ...
##  $ Value           : int  160283 239316 357327 307350 42206142 46552314 44484076 50338593 66870946 67218134 ...
##  $ Flag            : chr  "E" "E" "E" "E" ...
##  $ Flag.Description: chr  "Estimated value" "Estimated value" "Estimated value" "Estimated value" ...

Ta sẽ giải thích kết quả mà câu lệnh đã trả:

  • Bộ dữ liệu này là data frame, bao gồm 274 quan sát và 14 biến
  • Ở cột 1 là tên biến, cột 2 là kiểu biến, cột 3 là những quan sát
  • Ở cột 2 có những ký hiệu:
    • “chr”: Kiểu biến là ký tự
    • “int”: Kiểu biến là số nguyên
    • “num”: Kiểu biến là sỗ thực
  • Bộ dữ liệu có 7 biến định tính, 7 biến định lượng trong đó biến “Year” và những biến có dạng “.Code” không có ý nghĩa khi tính toán.
  • Giải thích ý nghĩa tên biến:
    • Domain.Code:Mã lĩnh vực quan sát
    • Domain: Lĩnh vực quan sát
    • Area.Code..M49: Mã của khu vực quan sát
    • Area: Tên khu vực quan sát
    • Element.Code: Mã thang đo giá trị
    • Element: Thang đo giá trị
    • Item.Code..CPC.: Mã của sản phẩm
    • Item: Tên sản phẩm
    • Year.Code: Mã năm quan sát
    • Year: Năm quan sát
    • Unit: Đơn vị
    • Value: Giá trị
    • Flag: Biểu tượng
    • Flag.Description: Giải thích biểu tượng Ta sẽ kiểm tra giá trị thiếu của bộ dữ liệu
sum(is.na(agr))
## [1] 0

Với kết quả trên thì bộ dữ liệu không có giá trị thiếu

Chọn ra bộ dữ liệu cần thiết

Ở bộ dữ liệu trên ta chỉ cần lấy các biến như: Tên quốc gia, năm quan sát, tên sản phẩm, giá trị sản phẩm. Ta sẽ dùng package tidyverse để thực hiện các thao tác về sau

# Lệnh chọn ra biến cần thiết
library(tidyverse)
agr1 <- agr %>% select(Area,Year,Item,Value)

Bộ dữ liệu đang có dạng là long table ta sẽ chuyển dữ liệu về wide table để tiện cho việc phân tích. Ta chuyển các giá trị ở cột Item thành cột và có giá trị là Value

agr1 <- agr1 %>% spread(key = Item, value = Value)
names(agr1)
## [1] "Area"                                       
## [2] "Year"                                       
## [3] "Coffee, green"                              
## [4] "Meat of pig with the bone, fresh or chilled"
## [5] "Rice"                                       
## [6] "Sugar cane"

Ta sẽ tiến hành đổi tên các biến để dễ dàng thao tác hơn

# Lệnh đổi tên các cột
agr1 <- agr1 %>% rename(Quốc_gia=Area,
                          Năm=Year,
                          Cà_phê="Coffee, green",
                          Thịt_heo="Meat of pig with the bone, fresh or chilled",
                          Gạo="Rice",
                          Đường= "Sugar cane")

Mã hoá dữ liệu

Ta sẽ nhóm các năm thành thập niên rùi gán nhãn cho chúng, sẽ có 2 thập niên là 2000s ứng từ năm 2000 đến năm 2009 và 2010s ứng từ năm 2010 đến năm 2021. Ta sẽ dùng lệnh case_match để thực hiện việc gán nhãn

agr1$TNiên <- agr1$Năm %>% case_match(2000:2009 ~ "2000s",
                                      2010:2021 ~ "2010s") 

Ta tiếp tực tạo bảng tần số theo biến TNiên và biến Item của bộ dữ liệu gốc. Và dùng package DT để tạo ra 1 bảng có tên cột và tên của bảng

agr$TNiên <- agr$Year %>% case_match(2000:2009 ~ "2000s",
                                      2010:2021 ~ "2010s")
ts <- agr %>% group_by(TNiên,Item) %>% summarise(n=n())
## `summarise()` has grouped output by 'TNiên'. You can override using the
## `.groups` argument.
library(DT)
datatable(ts, rownames = F,colnames = c("Thập niên","Sản phẩm","Tần số"),
          caption = "Bảng 1: Bảng tần số theo thập niên và sản phẩm")

Ta sẽ giải thích kết quả trên:

  • Thập niên 2000s:
    • Giá trị của cà phê có 20 quan sát
    • Giá trị của thịt heo có 19 quan sát
    • Giá trị của gạo có 40 quan sát
    • Giá trị của đường có 40 quan sát
  • Thập niên 2010s
    • Giá trị của cà phê có 28 quan sát
    • Giá trị của thịt heo có 34 quan sát
    • Giá trị của gạo có 47 quan sát
    • Giá trị của đường có 46 quan sát

Phân tích dữ liệu

Ta sẽ tiến hành tính giá trị sản xuất trung bình sản phẩm mỗi quốc gia. Ta sẽ dùng lệnh across lồng vào summarise để tính trung bình nhiều biến.

gttb <- agr1 %>% group_by(Quốc_gia) %>% summarise(across(c("Cà_phê","Thịt_heo",
                                                           "Gạo","Đường"),~mean(.x,na.rm = TRUE)))
datatable(gttb, rownames = F,colnames = c("Quốc gia",
                                          "Cà phê",
                                          "Thịt heo",
                                          "Gạo",
                                          "Đường"),
          caption = "Bảng 2: Bảng giá trị trung bình của các sản phẩm")
  • Về cà phê: Thì Việt Nam sản xuất ra nhiều giá trị nhất rồi tới Trung Quốc và Mỹ.
  • Về thịt heo: Thì Trung quốc là nước sản xuất ra giá trị nhiều nhất tiếp đến là Đức và Việt Nam
  • Về gạo: Trung Quốc lại tiếp tục dẫn đầu về mặt giá trị sản xuất tiếp đến là Nhật Bản và Việt Nam
  • Về đường: Trung Quốc là nước tạo ra giá trị sản xuất nhiều nhất tiếp đến là Mỹ và Việt Nam

Thông qua kết quả trên cho ta thấy được Trung Quốc mạnh về phần nông nghiệp hơn Mỹ, Việt Nam cũng có sự cạnh tranh về nông nghiệp với các nước đang có nền công nghiệp tiên tiến. Đánh giá trên là khách quan có thể xảy ra sai sót vì sau khi chuyển sau long table đã có dữ liệu bị thiếu, đây là hạn chế của bộ dữ liệu này.

