1 Nhiệm vụ 3.1


1.1 Đọc dữ liệu từ file excel

  • Gán dữ liệu nguồn từ file Excel vào h để xử lý dữ liệu trên RStudio
library(openxlsx)
library(DT)
h <- read.xlsx("/Users/phamxuanhoan/Downloads/population-and-demography.xlsx")
datatable(h)

1.2 Mô tả dữ liệu

  • Bảng dữ liệu mô tả dân số của 254 quốc gia trong từ năm 1950-2021
  • Bảng có 18288 số liệu và 24 biến
  • Bảng có 1 biến định tính là Country name và 23 biến định lượng
  • Year: Thời gian khảo sát
  • Population: Dân số
  • Population of children under the age of 1: Dân số trẻ em dưới 1 tuổi
  • Population of children under the age of 5: Dân số trẻ em dưới 5 tuổi
  • Population of children under the age of 15: Dân số trẻ em dưới 15 tuổi
  • Population under the age of 25: Dân số dưới 25 tuổi
  • Population aged 15 to 64 years: Dân số từ 15 đến 64 tuổi
  • Population older than 15 years: Dân số trên 15 tuổi
  • Population older than 18 years: Dân số trên 18 tuổi
  • Population at age 1: Dân số trẻ em 1 tuổi
  • Population aged 1 to 4 years: Dân số từ 1 đến 4 tuổi
  • Population aged 5 to 9 years: Dân số từ 5 đến 9 tuổi
  • Population aged 10 to 14 years: Dân số từ 10 đến 14 tuổi
  • Population aged 15 to 19 years: Dân số từ 15 đến 19 tuổi
  • Population aged 20 to 29 years: Dân số từ 20 đến 29 tuổi
  • Population aged 30 to 39 years: Dân số từ 30 đến 39 tuổi
  • Population aged 40 to 49 years: Dân số từ 40 đến 49 tuổi
  • Population aged 50 to 59 years: Dân số từ 50 đến 59 tuổi
  • Population aged 60 to 69 years: Dân số từ 60 đến 69 tuổi
  • Population aged 70 to 79 years: Dân số từ 70 đến 79 tuổi
  • Population aged 80 to 89 years: Dân số từ 80 đến 89 tuổi
  • Population aged 90 to 99 years: Dân số từ 90 đến 99 tuổi
  • Population older than 100 years: Dân số trên 100 tuổi

1.3 Đặt lại tên cho các cột của objec h

  • Ta gán 24 biến của bảng h cho 24 kí tự phù hợp
  • Country -> C
  • Year -> Y
  • Population -> P
  • Population of children under the age of 1 -> P1
  • Population of children under the age of 5 -> P5
  • Population of children under the age of 15 -> P15
  • Population under the age of 25 -> P25
  • Population aged 15 to 64 years -> P15TO64
  • Population older than 15 years -> PO15
  • Population older than 18 years -> PO18
  • Population at age 1 -> PA1
  • Population aged 1 to 4 years -> P1TO4
  • Population aged 5 to 9 years -> P5TO9
  • Population aged 10 to 14 years -> P10TO14
  • Population aged 15 to 19 years -> P15TO19
  • Population aged 20 to 29 years -> P20TO29
  • Population aged 30 to 39 years -> P30TO39
  • Population aged 40 to 49 years -> P40TO49
  • Population aged 50 to 59 years -> P50TO59
  • Population aged 60 to 69 years -> P60TO69
  • Population aged 70 to 79 years -> P70TO79
  • Population aged 80 to 89 years -> P80TO89
  • Population aged 90 to 99 years -> P90TO99
  • Population older than 100 years -> P100
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.4.4     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.0
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
names(h) <- c("C","Y","P","P1","P5","P15","P25","P15TO64","PO15","PO18","PA1","P1TO4","P5TO9", "P10TO14", "P15TO19","P20TO29","P30TO39", "P40TO49", "P50TO59", "P60TO69", "P70TO79", "P80TO89", "P90TO99", "P100")
datatable(h)

1.4 Rút trích dữ liệu

  • Lọc dữ liệu chỉ lấy 5 quốc gia: Andora, Angola, Asia, Canada, Chile và 5 đặc điểm là: Y, P, P1, P5, P15 để xử lý dữ liệu. Ta có bảng số liệu như sau:
library(dplyr)
h1 <- filter(h,C=='Andorra'| C=='Angola'| C=='Asia'| C=='Canada'| C=='Chile' ) %>% select(-c('P25','P15TO64','PO15','PO18','PA1','P1TO4','P5TO9','P10TO14','P15TO19','P20TO29','P30TO39','P40TO49','P50TO59','P60TO69','P70TO79','P80TO89','P90TO99','P100'))
table <- knitr::kable(h1, format="markdown")
datatable(h1)

1.5 Bảng tần số

1.5.1 Bảng tần số theo quốc gia

  • Bảng thể hiện tần số của mỗi quốc gia xuất hiện trong dữ liệu nguồn. Cụ thể: -Các quốc gia đều có tần số xuất hiện bằng nhau
table(h1$C)
## 
## Andorra  Angola  Canada   Chile 
##      72      72      72      72

1.5.2 Ta chia bảng số liệu thành 3 phần theo P

  • Ta chia bảng số liệu h1 thành 3 phần theo dân số. Ta thấy:
    • Tần số các quốc gia có dân số trong khoảng 1 là 153 -> lớn nhất
    • Tần số các quốc gia có dân số trong khoảng 2 là 88 -> lớn thứ nhì
    • Tần số các quốc gia có dân số trong khoảng 3 là 47 -> thấp nhất
table(cut(h1$P,3))
## 
## (-3.28e+04,1.27e+07]  (1.27e+07,2.54e+07]  (2.54e+07,3.82e+07] 
##                  153                   88                   47

1.6 Tính toán các đặc trưng

1.6.1 Bảng tóm tắt theo P và tính tổng P của 4 nước từ 1950- 2021

  • Min là giá trị nhỏ nhất. Cụ thể dân số của 4 quốc gia từ năm 1950 - 2021 là 5335 triệu người
  • 1st Qu. là giá trị thứ nhất của phân vị 25%. -Trong đó có 25% dân số của 4 quốc gia Andora, Angola, Asia, Canada sẽ thấp hơn 3378700 người và 75% sẽ cao hơn 3378700 người
  • Median là trung vị có giá trị lớn hơn 50% số số liệu và bé hơn 50% số số liệu. Cụ thể:
    • 50% dân số sẽ thấp hơn 11722513 người
    • 50% dân số sẽ cao hơn 11722513 người
  • Mean là giá trị trung bình của dân số. Cụ thể:
    • Dân số trung bình cảu 4 quốc gia Andora, Angola, Asia, Canada từ năm 1950- 2021 là 13005253.
  • 3rd Qu. là giá trị phân vị thứ 3 của 75%. Cụ thể.
    • Có 75% dân số thấp của các quốc gia Andora, Angola, Asia, Canada sẽ thấp hơn 19780416 người và 25% sẽ cao hơn 19780416 người
  • Max là giá trị lớn nhất. Dân số lớn nhất của 1 trong năm quốc gia là 38155012 người
summary(h1$P)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##     5335  3378700 11722513 13005253 19780416 38155012
sum(h1$P)
## [1] 3745512794

1.6.2 Phương sai độ lệch chuẩn và chiều dài

  • Lenght là độ dài của dữ liệu
length(h1$Y)
## [1] 288
  • Var là tính phương sai của Y
var(h1$Y)
## [1] 433.4216
  • Ta thấy giá trị của phương sai khá lớn nên độ phân tán của các giá trị xung quanh giá trị trung bình là khá cao

  • Sd là độ lệch chuẩn của Y và bằng căn bậc hai của phương sai

sd(h1$Y)
## [1] 20.81878
  • Ta thấy độ lệch chuẩn cũng có giá trị khá lớn nên độ tin cậy của giá trị tìm được cũng cao

1.7 Tính toán các đặc trưng đo lường theo nhóm

1.7.1 Bảng đặc trưng đo lường theo quốc gia

  • Bảng thể hiện giá trị trung bình của cột Population theo từng quốc gia. Cụ thể:
    • Canada là quốc gia có dân số trung bình lớn nhất với 26143393,18 người
    • Xếp thứ 2 là Angola với dân số trung bình là 13175863,57 người
    • Xếp thứ 3 là Chile với dân số trung bình là 12658178,72 người
    • Xếp thứ cuối cùng là Angdora với dân số trung bình là 43575,56 người
k1 <- h1 %>% group_by(C) %>% summarise(mean_of_p = mean(P))
mean(k1$mean_of_p)
## [1] 13005253
library(knitr)
datatable(k1)

1.7.2 Bảng đặc trưng đo lường theo năm

k2 <- h1 %>% group_by(Y) %>% summarise(n = n(),mean_of_p = mean(P))
mean(k2$mean_of_p)
## [1] 13005253
library(knitr)
datatable(k2)
  • Bảng thể hiện tần số và giá trị trung bình của cột Population theo từng năm. Cụ thể:
    • Dân số của 4 quốc gia năm 2021 là đông nhất với 23057757 người
    • Dân số của 4 quốc gia năm 1950 là it nhất với 6212733 người

1.7.3 Bảng đặc trưng đo lường theo nước và theo năm

k3 <- h1 %>% group_by(C,Y) %>% summarise(n = n(),mean_of_P = mean(P1),.groups = 'drop')
mean(k3$P1)
## [1] NA
library(knitr)
datatable(k3)
  • Bảng trên thể hiện tần số và giá trị trung bình của cột Population theo từng quốc gia và từng năm.

2 Nhiệm vụ 3.2


2.1 Đọc dữ liệu từ file excel

  • Gán dữ liệu nguồn từ file Excel vào m để xử lý dữ liệu trên RStudio
library(openxlsx)
m <- read.xlsx("/Users/phamxuanhoan/Downloads/NY-House-Dataset.xlsx")
datatable(m)

2.2 Mô tả dữ liệu

  • Bảng dữ liệu mô tả mã vùng của các quốc gia
  • Bảng có 4801 số liệu và 17 biến
  • Bảng có 6 biến định lượng và 11 biến định tính
  • brokertitle: loại môi giới
  • type: kiểu
  • price: giá
  • beds: giường
  • bath: bồn tắm
  • propertysqft: thuộc tính
  • address: địa chỉ
  • state:trạng thái
  • main address: trụ sở chính
  • administrative area level 2: khu vực hành chính cấp 2
  • locality: địa phương
  • sublocality: tiểu địa phương
  • street name: tên đường
  • long name: tên dài
  • formatted address:địa chỉ
  • latitude: vĩ độ
  • longitude: kinh độ

2.3 Đổi tên

  • brokertitle -> br
  • type -> t
  • price -> p
  • beds -> be
  • bath -> ba
  • propertysqft -> pr
  • address -> a
  • state -> st
  • main address -> m
  • administrative area level 2 -> ad
  • locality -> l
  • sublocality -> s
  • street name -> sn
  • long name -> ln
  • formatted address -> fa
  • latitude -> la
  • longitude -> lo
names(m) <- c("br","t","p","be","ba","pr","a","st","m","ad","l","s","sn","ln","fa","la","lo")
names(m)
##  [1] "br" "t"  "p"  "be" "ba" "pr" "a"  "st" "m"  "ad" "l"  "s"  "sn" "ln" "fa"
## [16] "la" "lo"
datatable(m)

2.4 Rút trích dữ liệu

  • Lọc dữ liệu chỉ lấy 4 loại: House for sale, Condo for sale, Co-op for sale, Land for sale và 5 biến là BROKERTITLE,TYPE, PRICE, BEDS, BATH để xử lý dữ liệu. Ta có bảng số liệu như sau:
library(dplyr)
m1 <- filter(m,t=='House for sale'| t=='Condo for sale'| t=='Co-op for sale'| t=='Land for sale' ) %>% select(-c('pr','a','st','m','ad','l','s','sn','ln','fa','la','lo'))
table <- knitr::kable(m1, format="markdown")
datatable(m1)

2.5 Bảng tần số

2.5.1 Bảng tần số theo loại

  • Bảng thể hiện tần số xuất hiện của từng quôc gia. Cụ thể:
    • Tần số của Co-op for sale là lớn nhất với 1450
    • Tần số của House for sale xếp thứ nhì với 1012
    • Tần số của COndo for sale xếp thứ ba với 891 -Tần số của Land for sale xếp cuối với 49
table(m1$t)
## 
## Co-op for sale Condo for sale House for sale  Land for sale 
##           1450            891           1012             49

2.5.2 Ta chia bảng số liệu thành 3 phần theo số bồn tắm

  • Ta thấy mức độ phân bổ không đồng đều giữa các loại căn hộ. Cụ thể: -Căn hộ có số bồn tắm từ 0,985-6 là lớn nhiều nhất với 3386 cái
    • Căn hộ có số bồn tắm từ 6-11 xếp thứ nhì với 14 cái
    • Căn hộ có số bồn tắm từ 11-16 là ít nhất với 2 cái
table(cut(m1$ba,3))
## 
## (0.985,6]    (6,11]   (11,16] 
##      3386        14         2

2.6 Tính toán các đặc trưng

2.6.1 Bảng tóm tắt theo be và tính tổng be của 4 laoij căn hộ

  • Min là giá trị nhỏ nhất. Cụ thể: Số giường ít nhất của một căn hộ là 1 cái
  • 1st Qu. là giá trị thứ nhất của phân vị 25%. Tức là:
    • Có 25% số căn hộ có số giường ít hơn 2 cái giường
    • Có 75 % số căn hộ có số giường lớn hơn 2 cái giường
  • Median là trung vị có giá trị lớn hơn 50% số số liệu và bé hơn 50% số số liệu. Tức là:
    • Có 50% số căn hộ có ít hơn 3 cái giường
    • Có 50% số căn hộ có nhiều hơn 3 cái giường
  • Mean là giá trị trung bình của P -Số giường trung bình của 4 loại căn hộ là 2.61
  • 3rd Qu. là giá trị phân vị thứ 3 của 75% . Tức là:
    • Có 75 % số căn hộ có số giường ít hơn 3 cái
    • Có 25 % số Căn hộ có số giường nhiều hơn 3 cái
  • Max là giá trị lớn nhất. Số giường nhiều nhất của 1 phòng là 32 cái
summary(m1$be)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    2.00    3.00    2.61    3.00   32.00
sum(m1$be)
## [1] 8879

2.6.2 Phương sai độ lệch chuẩn và chiều dài

  • Lenght là độ dài của dữ liệu
length(m1$be)
## [1] 3402
  • Var là tính phương sai của Y
var(m1$be)
## [1] 2.186823
  • Ta thấy giá trị của phương sai khá nhỏ nên độ phân tán của các giá trị xung quanh giá trị trung bình là khá thấp

  • Sd là độ lệch chuẩn của Y và bằng căn bậc hai của phương sai

sd(m1$be)
## [1] 1.478791
  • Ta thấy độ lệch chuẩn cũng có giá trị khá nhỏ nên độ tin cậy của giá trị tìm được cũng thấp

2.7 Tính toán các đặc trưng đo lường theo nhóm

2.7.1 Bảng tính trung bình giường

n1 <- m1 %>% group_by(t) %>% summarise(mean_of_bed = mean(be))
mean(n1$mean_of_be)
## [1] NA
library(knitr)
datatable(n1)
  • Bảng thể hiện giá trị trung bình của cột BEbs theo từng loại căn hộ. Cụ thể:
    • House for sale là căn hộ có số giường trung bình lớn nhất với 3.738142 cái
    • Xếp thứ 2 là Land for sale với số giường trung bình là 3 cái
    • Xếp thứ 3 là Condo for sale với số giường trung bình là 2.332211 cái
    • Xếp thứ cuối cùng là Co-op for sale với số giường trung bình là 1.98 cái

2.7.2 Bảng thể hiện số giường trung bình theo loại căn hộ

n2 <- m1 %>% group_by(t) %>% summarise(n = n(),mean_of_bed = mean(be))
mean(n2$mean_of_be)
## [1] NA
library(knitr)
datatable(n2)

2.7.3 BẢng thể hiện số bồn tăm trung bình theo loại căn hộ

  • Ta thấy:
    • Số bồn tăm trung bình của House for sale là lớn nhất với 2.535964 cái
    • Số bồn tắm trung bình của Land for sale xếp thứ nhì với 2.366231 cái
    • Số bồn tăm trung bình của Condo for sale xếp thứ ba với 2.008256 cái
    • Số bồn tăm trung bình của Co-op for sale là thấp nhất với 1.437235 cái
n3 <- m1 %>% group_by(t) %>% summarise(mean_of_bath = mean(ba))
mean(n3$mean_of_ba)
## [1] NA
library(knitr)
datatable(n3)
