TÊN DATASET : Swiss

Mô tả: dữ liệu thể hiện mức độ sinh sản và các chỉ số kinh tế xã hội cho người dân của 47 tỉnh nói tiếng Pháp ở Thụy Sĩ vào khoảng năm 1888.

Data bao gồm: một khung dữ liệu với 47 quan sát trên 6 biến, mỗi biến tính bằng phần trăm.

Fertility Ig: tỉ lệ sinh sản, ‘đo lường mức sinh trung bình’

Agriculture: % nam giới tham gia vào các ngành nông nghiệp

Examination: % nhận được điểm cao nhất trong kỳ thi quân sự

Education: % giáo dục thêm các chương trình khác cho những người nhập ngũ.

Catholic: % người mang đạo ‘công giáo’ (trái ngược với ‘tin lành’).

Infant: Tỷ lệ tử vong trẻ sơ sinh dưới 1 năm tuổi.

TUẦN 2

data("swiss")
d <- swiss
sinhsan <-cut(d$Fertility, breaks=c(35,55,75,95), labels=c('thấp', 'trung bình', 'cao'))
table(sinhsan)
## sinhsan
##       thấp trung bình        cao 
##          3         26         17

Trong 47 tỉnh tham gia khảo sát thì có 3 tỉnh có tỉ lệ sinh sản thấp, 26 tỉnh rơi vào trung bình và 17 tỉnh có tỉ lệ sinh sản khá cao.

summary(swiss)
##    Fertility      Agriculture     Examination      Education    
##  Min.   :35.00   Min.   : 1.20   Min.   : 3.00   Min.   : 1.00  
##  1st Qu.:64.70   1st Qu.:35.90   1st Qu.:12.00   1st Qu.: 6.00  
##  Median :70.40   Median :54.10   Median :16.00   Median : 8.00  
##  Mean   :70.14   Mean   :50.66   Mean   :16.49   Mean   :10.98  
##  3rd Qu.:78.45   3rd Qu.:67.65   3rd Qu.:22.00   3rd Qu.:12.00  
##  Max.   :92.50   Max.   :89.70   Max.   :37.00   Max.   :53.00  
##     Catholic       Infant.Mortality
##  Min.   :  2.150   Min.   :10.80   
##  1st Qu.:  5.195   1st Qu.:18.15   
##  Median : 15.140   Median :20.00   
##  Mean   : 41.144   Mean   :19.94   
##  3rd Qu.: 93.125   3rd Qu.:21.70   
##  Max.   :100.000   Max.   :26.60

Để có cái nhìn tổng quan data frame chúng ta có thể sử dụng lệnh summary để biết các thông tin về trung bình, min, max, trung vị, các tứ phân vị của các biến.

Ngoài ra chúng ta có thể tìm hiểu về từng thống kê riêng của các biến.

mean(swiss$Infant.Mortality)
## [1] 19.94255
median(swiss$Infant.Mortality)
## [1] 20
sd(swiss$Infant.Mortality)
## [1] 2.912697
quantile(swiss$Infant.Mortality,0.5)
## 50% 
##  20

Các dữ liệu còn có thể biểu diễn dưới dạng biểu đồ về tỷ lệ tử vong trẻ sơ sinh dưới 1 năm tuổi.

hist(swiss$Infant.Mortality)

Câu lệnh sau đây là thống kê thể hiện với phần trăm nam giới tham gia vào các ngành nông nghiệp thì có bao nhiêu phần trăm là mang đạo ’ công giáo’.

aggregate(swiss$Catholic, list(swiss$Agriculture), FUN ='mean')
##    Group.1      x
## 1      1.2  42.34
## 2      7.7  13.79
## 3     15.2   2.15
## 4     16.7  11.22
## 5     17.0   9.96
## 6     17.6  16.92
## 7     18.7   8.65
## 8     19.4  12.11
## 9     26.8  18.46
## 10    27.7  58.33
## 11    34.0   3.30
## 12    35.3  90.57
## 13    36.5  33.77
## 14    37.6   4.97
## 15    38.4   5.62
## 16    39.7  93.40
## 17    43.5   5.16
## 18    45.1  84.84
## 19    45.2  91.38
## 20    46.6  50.43
## 21    49.5   6.10
## 22    50.9  15.14
## 23    53.3  97.67
## 24    54.1   4.20
## 25    55.1   4.52
## 26    58.1   5.23
## 27    59.8   5.23
## 28    60.7   4.43
## 29    60.8   7.72
## 30    62.0   8.52
## 31    63.1  96.83
## 32    63.5   2.56
## 33    64.5  98.61
## 34    64.9  98.22
## 35    67.5   2.27
## 36    67.8  97.16
## 37    69.3   2.82
## 38    70.2  92.85
## 39    71.2   2.40
## 40    72.6  24.20
## 41    73.0   2.84
## 42    75.9  99.06
## 43    78.2  98.96
## 44    84.6  99.46
## 45    84.9  99.68
## 46    85.9  99.71
## 47    89.7 100.00

TUẦN 1

Đầu tiên chúng ta gọi bộ dữ liệu lên và gán dữ liệu vào biến d. Lệnh str thể hiệnhiện cấu trúc của bộ dữ liệu. Kết quả cung cấp thông tin về số lượng quan sát, số biến, tên của các biến, loại dữ liệu của từng biến.

data("swiss")
d <- swiss
str(d)
## 'data.frame':    47 obs. of  6 variables:
##  $ Fertility       : num  80.2 83.1 92.5 85.8 76.9 76.1 83.8 92.4 82.4 82.9 ...
##  $ Agriculture     : num  17 45.1 39.7 36.5 43.5 35.3 70.2 67.8 53.3 45.2 ...
##  $ Examination     : int  15 6 5 12 17 9 16 14 12 16 ...
##  $ Education       : int  12 9 5 7 15 7 7 8 7 13 ...
##  $ Catholic        : num  9.96 84.84 93.4 33.77 5.16 ...
##  $ Infant.Mortality: num  22.2 22.2 20.2 20.3 20.6 26.6 23.6 24.9 21 24.4 ...
Agr <- swiss$Agriculture
Agr1 <- Agr[Agr>50]
Agr2 <- Agr[Agr>50 & Agr<80]
Agr[10]
## [1] 45.2

Để hiểu biết thêm về phần trăm nam giới ở các tỉnh ta gọi biến lên , có thẻ gọi từng phàn tử như câu lệnh Agr[10] và tiến hành phân tích sâu hơn. Agr1 chơ thấy có 26 tỉnh trong 47 tỉnh thảnh có trên 50% nam giới nhập ngũ. Agr2 thể hiện là có 22 tỉnh thành mà phần trăm nam giới nhập ngữ rơi vào khoảng 50%-80%.

edu <- swiss$Education
table(cut(edu,4))
## 
## (0.948,14]    (14,27]    (27,40]  (40,53.1] 
##         39          3          4          1

Từ câu lệnh cắt dữ liệu thành 4 đoạn ta có thể thấy bảng tần số của biến Education:

Có 39 tỉnh có thực hiện giáo dục thêm cho người nhập ngũ từ 0.998 đến 14 phần trăm.

Có 3 tỉnh có thực hiện giáo dục thêm cho người nhập ngũ từ 14 đến 27 phần trăm.

Có 4 tỉnh có thực hiện giáo dục thêm cho người nhập ngũ từ 27 đến 40 phần trăm.

Có 1 tỉnh có thực hiện giáo dục thêm cho người nhập ngũ từ 40 đến 53.1 phần trăm.

Nhìn chung ta có thể thấy các tỉnh có thể dạy thêm nhưng không nhiều tại các tỉnh phần lớn là từ 0.948 đến 14 phần trăm.