Trong một số trường hợp chúng ta có thể không sử dụng hết các biến số hoặc tất cả các quan sát trong 1 file dữ liệu, chúng ta có thể trích dữ liệu từ1 dataframe có sẵn bằng những câu lệnh đơn giản, trong nội dung này chúng ta sử dụng bộ số liệu CPS1988.csv đểlàm ví dụ minh họa. Trước hết chúng ta sơ bộ file dữ liệu có tên CPS1988.csv bằng câu lệnh sau:
CPS1988<-read.csv(“crab.csv”, header =TRUE): đọc file có tên CPS1988.csv trong thư mục F:/PhanmemR và đặt tên CPS1988.
CPS1988: câu lệnh cho biết chi tiết các biến của đối tượng CPS1988.
setwd("F:/PhanmemR")
CPS1988 <- read.csv("CPS1988.csv")
CPS1988
## color spine width satell weight y
## 1 3 3 28.3 8 3050 1
## 2 4 3 22.5 0 1550 0
## 3 2 1 26.0 9 2300 1
## 4 4 3 24.8 0 2100 0
## 5 4 3 26.0 4 2600 1
## 6 3 3 23.8 0 2100 0
## 7 2 1 26.5 0 2350 0
## 8 4 2 24.7 0 1900 0
## 9 3 1 23.7 0 1950 0
## 10 4 3 25.6 0 2150 0
## 11 4 3 24.3 0 2150 0
## 12 3 3 25.8 0 2650 0
## 13 3 3 28.2 11 3050 1
## 14 5 2 21.0 0 1850 0
## 15 3 1 26.0 14 2300 1
## 16 2 1 27.1 8 2950 1
## 17 3 3 25.2 1 2000 1
## 18 3 3 29.0 1 3000 1
## 19 5 3 24.7 0 2200 0
## 20 3 3 27.4 5 2700 1
## 21 3 2 23.2 4 1950 1
## 22 2 2 25.0 3 2300 1
## 23 3 1 22.5 1 1600 1
## 24 4 3 26.7 2 2600 1
## 25 5 3 25.8 3 2000 1
## 26 5 3 26.2 0 1300 0
## 27 3 3 28.7 3 3150 1
## 28 3 1 26.8 5 2700 1
## 29 5 3 27.5 0 2600 0
## 30 3 3 24.9 0 2100 0
## 31 2 1 29.3 4 3200 1
## 32 2 3 25.8 0 2600 0
## 33 3 2 25.7 0 2000 0
## 34 3 1 25.7 8 2000 1
## 35 3 1 26.7 5 2700 1
## 36 5 3 23.7 0 1850 0
## 37 3 3 26.8 0 2650 0
## 38 3 3 27.5 6 3150 1
## 39 5 3 23.4 0 1900 0
## 40 3 3 27.9 6 2800 1
## 41 4 3 27.5 3 3100 1
## 42 2 1 26.1 5 2800 1
## 43 2 1 27.7 6 2500 1
## 44 3 1 30.0 5 3300 1
## 45 4 1 28.5 9 3250 1
## 46 4 3 28.9 4 2800 1
## 47 3 3 28.2 6 2600 1
## 48 3 3 25.0 4 2100 1
## 49 3 3 28.5 3 3000 1
## 50 3 1 30.3 3 3600 1
## 51 5 3 24.7 5 2100 1
## 52 3 3 27.7 5 2900 1
## 53 2 1 27.4 6 2700 1
## 54 3 3 22.9 4 1600 1
## 55 3 1 25.7 5 2000 1
## 56 3 3 28.3 15 3000 1
## 57 3 3 27.2 3 2700 1
## 58 4 3 26.2 3 2300 1
## 59 3 1 27.8 0 2750 0
## 60 5 3 25.5 0 2250 0
## 61 4 3 27.1 0 2550 0
## 62 4 3 24.5 5 2050 1
## 63 4 1 27.0 3 2450 1
## 64 3 3 26.0 5 2150 1
## 65 3 3 28.0 1 2800 1
## 66 3 3 30.0 8 3050 1
## 67 3 3 29.0 10 3200 1
## 68 3 3 26.2 0 2400 0
## 69 3 1 26.5 0 1300 0
## 70 3 3 26.2 3 2400 1
## 71 4 3 25.6 7 2800 1
## 72 4 3 23.0 1 1650 1
## 73 4 3 23.0 0 1800 0
## 74 3 3 25.4 6 2250 1
## 75 4 3 24.2 0 1900 0
## 76 3 2 22.9 0 1600 0
## 77 4 2 26.0 3 2200 1
## 78 3 3 25.4 4 2250 1
## 79 4 3 25.7 0 1200 0
## 80 3 3 25.1 5 2100 1
## 81 4 2 24.5 0 2250 0
## 82 5 3 27.5 0 2900 0
## 83 4 3 23.1 0 1650 0
## 84 4 1 25.9 4 2550 1
## 85 3 3 25.8 0 2300 0
## 86 5 3 27.0 3 2250 1
## 87 3 3 28.5 0 3050 0
## 88 5 1 25.5 0 2750 0
## 89 5 3 23.5 0 1900 0
## 90 3 2 24.0 0 1700 0
## 91 3 1 29.7 5 3850 1
## 92 3 1 26.8 0 2550 0
## 93 5 3 26.7 0 2450 0
## 94 3 1 28.7 0 3200 0
## 95 4 3 23.1 0 1550 0
## 96 3 1 29.0 1 2800 1
## 97 4 3 25.5 0 2250 0
## 98 4 3 26.5 1 1967 1
## 99 4 3 24.5 1 2200 1
## 100 4 3 28.5 1 3000 1
## 101 3 3 28.2 1 2867 1
## 102 3 3 24.5 1 1600 1
## 103 3 3 27.5 1 2550 1
## 104 3 2 24.7 4 2550 1
## 105 3 1 25.2 1 2000 1
## 106 4 3 27.3 1 2900 1
## 107 3 3 26.3 1 2400 1
## 108 3 3 29.0 1 3100 1
## 109 3 3 25.3 2 1900 1
## 110 3 3 26.5 4 2300 1
## 111 3 3 27.8 3 3250 1
## 112 3 3 27.0 6 2500 1
## 113 4 3 25.7 0 2100 0
## 114 3 3 25.0 2 2100 1
## 115 3 3 31.9 2 3325 1
## 116 5 3 23.7 0 1800 0
## 117 5 3 29.3 12 3225 1
## 118 4 3 22.0 0 1400 0
## 119 3 3 25.0 5 2400 1
## 120 4 3 27.0 6 2500 1
## 121 4 3 23.8 6 1800 1
## 122 2 1 30.2 2 3275 1
## 123 4 3 26.2 0 2225 0
## 124 3 3 24.2 2 1650 1
## 125 3 3 27.4 3 2900 1
## 126 3 2 25.4 0 2300 0
## 127 4 3 28.4 3 3200 1
## 128 5 3 22.5 4 1475 1
## 129 3 3 26.2 2 2025 1
## 130 3 1 24.9 6 2300 1
## 131 2 2 24.5 6 1950 1
## 132 3 3 25.1 0 1800 0
## 133 3 1 28.0 4 2900 1
## 134 5 3 25.8 10 2250 1
## 135 3 3 27.9 7 3050 1
## 136 3 3 24.9 0 2200 0
## 137 3 1 28.4 5 3100 1
## 138 4 3 27.2 5 2400 1
## 139 3 2 25.0 6 2250 1
## 140 3 3 27.5 6 2625 1
## 141 3 1 33.5 7 5200 1
## 142 3 3 30.5 3 3325 1
## 143 4 3 29.0 3 2925 1
## 144 3 1 24.3 0 2000 0
## 145 3 3 25.8 0 2400 0
## 146 5 3 25.0 8 2100 1
## 147 3 1 31.7 4 3725 1
## 148 3 3 29.5 4 3025 1
## 149 4 3 24.0 10 1900 1
## 150 3 3 30.0 9 3000 1
## 151 3 3 27.6 4 2850 1
## 152 3 3 26.2 0 2300 0
## 153 3 1 23.1 0 2000 0
## 154 3 1 22.9 0 1600 0
## 155 5 3 24.5 0 1900 0
## 156 3 3 24.7 4 1950 1
## 157 3 3 28.3 0 3200 0
## 158 3 3 23.9 2 1850 1
## 159 4 3 23.8 0 1800 0
## 160 4 2 29.8 4 3500 1
## 161 3 3 26.5 4 2350 1
## 162 3 3 26.0 3 2275 1
## 163 3 3 28.2 8 3050 1
## 164 5 3 25.7 0 2150 0
## 165 3 3 26.5 7 2750 1
## 166 3 3 25.8 0 2200 0
## 167 4 3 24.1 0 1800 0
## 168 4 3 26.2 2 2175 1
## 169 4 3 26.1 3 2750 1
## 170 4 3 29.0 4 3275 1
## 171 2 1 28.0 0 2625 0
## 172 5 3 27.0 0 2625 0
## 173 3 2 24.5 0 2000 0
Có thể trích xuất ra một dataframe con bằng cách chỉ định cụ thể quan sát nào muốn lấy theo vị trí của hàng. Câu lệnh như sau:
CPS1988<-read.csv(“crab.csv”, header =TRUE): đọc file có tên CPS1988.csv trong thư mục F:/PhanmemR và đặt tên CPS1988.
CPS1<-CPS1988[c(1, 3, 100),]:trích xuất các quan sát dòng 1, 3, 100 của đối tượng CPS1988 và đặt tên CPS1.
CPS2<-CPS1988[c(1: 3, 10, 100),]:trích xuất các quan sát dòng từ 1 đến dòng 3, dòng 10, dòng 100 của đối tượng CPS1988 và đặt tên CPS2.
Kết quả của hai câu lệnh trên:
## Trích xuất quan sát ở dòng 1, 3, 100
CPS1 <- CPS1988[c(1,3,100),]
CPS1
## color spine width satell weight y
## 1 3 3 28.3 8 3050 1
## 3 2 1 26.0 9 2300 1
## 100 4 3 28.5 1 3000 1
## Trích xuất quan sát từ dòng 1 đến 3, dòng 10, dòng 100
CPS2 <- CPS1988[c(1:3,10,100),]
CPS2
## color spine width satell weight y
## 1 3 3 28.3 8 3050 1
## 2 4 3 22.5 0 1550 0
## 3 2 1 26.0 9 2300 1
## 10 4 3 25.6 0 2150 0
## 100 4 3 28.5 1 3000 1
Trong một số trường hợp chúng ta chỉ quan tâm đến một số biến chứ không phải toàn bộ các biến. Để trích xuất dữ liệu theo cột ta thực hiện lệnh sau:
CPS1988<-read.csv(“crab.csv”, header =TRUE): đọc file có tên CPS1988.csv trong thư mục F:/PhanmemR và đặt tên CPS1988.
CPS3<-CPS1988[c(2:4)]:lấy cột từ2 đến cột 4 của đối tượng CPS1988 và đặt tên CPS3
head(CPS3):xem 6 quan sát đầu tiên của đối tượng CPS3.
# Trích xuất từ cột 2 đến cột 4 và đặt tên CPS3
CPS3 <- CPS1988[c(2:4)]
head(CPS3)
## spine width satell
## 1 3 28.3 8
## 2 3 22.5 0
## 3 1 26.0 9
## 4 3 24.8 0
## 5 3 26.0 4
## 6 3 23.8 0
7.3. Trích xuất dữliệu theo hàng và cột
Đểtrích xuất dữliệu theo hàng và cột ta thực hiện câu lệnh:
CPS1988<-read.csv(“crab.csv”, header =TRUE): câu lệnh đọc file có tên CPS1988.csv trong thư mụcD:/PhanmemR và đặt tên CPS1988.
CPS4 <-CPS1988[c(1, 3, 5, 7), c(2:4)]:câu lệnh trích xuất dữ liệu từ cột 2 đến cột 4, dòng 2 đến dòng 4 của đối tượng CPS1988 và đặt tên CPS4.
head(CPS4):câu lệnh xem 6 quan sát đầu tiên của CPS4.
CPS4 <- CPS1988[c(1,3,5,7),c(2:4)]
head(CPS4)
## spine width satell
## 1 3 28.3 8
## 3 1 26.0 9
## 5 3 26.0 4
## 7 1 26.5 0
Kết quảcâu lệnh trên tạo ra một dataframe gồm các dòng 1, 3, 5, 7 và chỉlấy các biến ởcột 2, 3, 4 từdataframe gốc ban đầu.
Trong nhiều tình huống, chúng ta cần trích xuất dữliệu cho các quan sát theo một tiêu chí nào đó. Chẳng hạn, từtập dữliệu CPS1988.csv chúng ta muốn trích xuất tất cảcác quan sát ứng với y=1 mà thôi với tên gọi CPS5 chẳng hạn, ta thực hiện câu lệnh sau:
CPS1988<-read.csv(“crab.csv”, header =TRUE): đọc file có tênCPS1988.csv trong thư mục F:/PhanmemR và đặt tên CPS1988.
CPS5 <-subset(CPS1988, y == “1”):trích xuất các quan sát của biến y = 1 trong đối tượng CPS1988 và đặt tên CPS5.
CPS5 <- subset (CPS1988, y == 1 )
dim(CPS5)
## [1] 111 6
head(CPS5)
## color spine width satell weight y
## 1 3 3 28.3 8 3050 1
## 3 2 1 26.0 9 2300 1
## 5 4 3 26.0 4 2600 1
## 13 3 3 28.2 11 3050 1
## 15 3 1 26.0 14 2300 1
## 16 2 1 27.1 8 2950 1
Kết quảcâu lệnh cho thấy, có 111 quan sát có ly là 1 được trích xuất.
Tương tự, chúng ta cũng có thểtrích xuất dữ liệu theo một số tiêu chí nào đó.
Ví dụ, cũng từdữliệu CPS1988 ta trích xuất dữliệu cho các quan sát các tiêu chí mà: (1) ứng với y=1, và (2) có color = 3 với đặt tên CPS6, ta thực hiện câu lệnh sau:
CPS6 <-subset(CPS1988, y=1 & color = 3:trích xuất các quan sát của biến y=1 và các quan sát của biến color = 3 trong đối tượng CPS1988 với tên CPS6.
head(CPS6):câu lệnh xem 6 quan sát đầu tiên của CPS6.
CPS6 <- subset(CPS1988, y == 1 & color == 3)
head (CPS6)
## color spine width satell weight y
## 1 3 3 28.3 8 3050 1
## 13 3 3 28.2 11 3050 1
## 15 3 1 26.0 14 2300 1
## 17 3 3 25.2 1 2000 1
## 18 3 3 29.0 1 3000 1
## 20 3 3 27.4 5 2700 1
Hoặc chúng ta cũng có thểtrích xuất dữliệu cho các quan sát trong CPS1988 theo các tiêu chí (1) ứng với education <2 hoặc (2) experience >50 và đặt tên CPS7, ta thực hiện câu lệnh:
CPS7 <-subset(CPS1988, y == 1 | color = 3):câu lệnh trích xuất các quan sát của biến y=1 hoặc các quan sát của biến color = 3 trong đối tượng CPS1988 và đặt tên CPS7.
head(CPS7):câu lệnh xem 6 quan sát đầu tiên của CPS7.
CPS6 <- subset(CPS1988, y == 1 | color == 3)
head (CPS6)
## color spine width satell weight y
## 1 3 3 28.3 8 3050 1
## 3 2 1 26.0 9 2300 1
## 5 4 3 26.0 4 2600 1
## 6 3 3 23.8 0 2100 0
## 9 3 1 23.7 0 1950 0
## 12 3 3 25.8 0 2650 0
Trong mục này chúng ta sửdụng dữliệu của file afterlife.xlsx trong thư mục F:/PhanmemR để làm ví dụm inh họa.
Trước tiên chúng ta mô tả sơ bộ về file dữ liệu afterlife.xlsx bằng câu lệnh sau:
af<-read.xlsx(“afterlife.xlsx”, sheetIndex =1, header =TRUE):đọc file afterlife.xlsx và đặt tên af.
af: câu lệnh cho biết chi tiết đối tượng af
setwd("F:/PhanmemR")
af <- read.csv("afterlife.csv")
head(af)
## Sex Believe X X.1 X.2 X.3 X.4 X.5 X.6 X.7 X.8 X.9 X.10 X.11 X.12 X.13 X.14
## 1 2 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 2 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 1 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 2 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 2 6 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 1 6 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.15 X.16 X.17 X.18 X.19 X.20 X.21 X.22 X.23 X.24 X.25 X.26 X.27 X.28 X.29
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.30 X.31 X.32 X.33 X.34 X.35 X.36 X.37 X.38 X.39 X.40 X.41 X.42 X.43 X.44
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.45 X.46 X.47 X.48 X.49 X.50 X.51 X.52 X.53 X.54 X.55 X.56 X.57 X.58 X.59
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.60 X.61 X.62 X.63 X.64 X.65 X.66 X.67 X.68 X.69 X.70 X.71 X.72 X.73 X.74
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.75 X.76 X.77 X.78 X.79 X.80 X.81 X.82 X.83 X.84 X.85 X.86 X.87 X.88 X.89
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.90 X.91 X.92 X.93 X.94 X.95 X.96 X.97 X.98 X.99 X.100 X.101 X.102 X.103
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.104 X.105 X.106 X.107 X.108 X.109 X.110 X.111 X.112 X.113 X.114 X.115 X.116
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.117 X.118 X.119 X.120 X.121 X.122 X.123 X.124 X.125 X.126 X.127 X.128 X.129
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.130 X.131 X.132 X.133 X.134 X.135 X.136 X.137 X.138 X.139 X.140 X.141 X.142
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.143 X.144 X.145 X.146 X.147 X.148 X.149 X.150 X.151 X.152 X.153 X.154 X.155
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.156 X.157 X.158 X.159 X.160 X.161 X.162 X.163 X.164 X.165 X.166 X.167 X.168
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.169 X.170 X.171 X.172 X.173 X.174 X.175 X.176 X.177 X.178 X.179 X.180 X.181
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.182 X.183 X.184 X.185 X.186 X.187 X.188 X.189 X.190 X.191 X.192 X.193 X.194
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.195 X.196 X.197 X.198 X.199 X.200 X.201 X.202 X.203 X.204 X.205 X.206 X.207
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.208 X.209 X.210 X.211 X.212 X.213 X.214 X.215 X.216 X.217 X.218 X.219 X.220
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.221 X.222 X.223 X.224 X.225 X.226 X.227 X.228 X.229 X.230 X.231 X.232 X.233
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.234 X.235 X.236 X.237 X.238 X.239 X.240 X.241 X.242 X.243 X.244 X.245 X.246
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.247 X.248 X.249 X.250 X.251 X.252 X.253
## 1 NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA
## 5 NA NA NA NA NA NA NA
## 6 NA NA NA NA NA NA NA
Dữ liệu file afterlife.xlsx có hai biến định tính.
Biến thứnhất: Sex (giới tính) được mã hóa như sau: 1 là nam và 2 là nữ.
Biến thứ2: Believe (niềm tin) của người được khảo sát “Sau khi chết có tồn tại một thếgiới khác” được mã hóa như sau:
1: Tin là có, khẳng định chắc chắn.
2: Tin là có, nhưng, nhưng không chắc chắn.
3: Tin là không có, nhưng không chắc chắn.
4: Tin là không có, khẳng định chắc chắn.
Dữliệu bịkhuyết.
Không thểchọn.
Không trảlời.
Trong dữ liệu này chúng ta chỉgiữlại những quan sát mà biến Believe < 5, sau đó thay những quan sát có giá trị 1 và 2 của biến Believe thành giá trị1 (những quan sát Tin là có), đồng thời những quan sát có giá trị3 và 4 của biến Believe thành giá trị0 (những quan sát Tin là không có).
Đểthực hiện công việc trên ta thực hiện các lệnh sau:
af<-read.xlsx(“afterlife.xlsx”, sheetIndex =1, header =TRUE):đọc file tên afterlife.xlsx và đặt tên af.
afmahoa<-subset(af, Believe <5):câu lệnh trích xuất những quan sát mà giá trịcủa biến Believe <5 và đặt tên afmahoa.
afmahoa\(Believe[afmahoa\)Believe <=2] <-1: câu lệnh thay những giá trị quan sát ≤2 trong cột Believe của afmahoa bằng 1.
afmahoa\(Believe[afmahoa\)Believe >2] <-0:câu lệnh thay những giá trịquan sát >2 trong cột Believe của afmahoa bằng 0.
setwd("F:/PhanmemR")
af <- read.csv("afterlife.csv")
afmahoa <- subset (af,Believe < 5)
dim(afmahoa)
## [1] 1260 256
afmahoa$Believe[afmahoa$Believe<=2] <- 1
afmahoa$Believe[afmahoa$Believe>2] <-0
head(afmahoa)
## Sex Believe X X.1 X.2 X.3 X.4 X.5 X.6 X.7 X.8 X.9 X.10 X.11 X.12 X.13 X.14
## 1 2 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 2 0 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 1 0 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 2 0 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 2 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 2 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.15 X.16 X.17 X.18 X.19 X.20 X.21 X.22 X.23 X.24 X.25 X.26 X.27 X.28 X.29
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.30 X.31 X.32 X.33 X.34 X.35 X.36 X.37 X.38 X.39 X.40 X.41 X.42 X.43 X.44
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.45 X.46 X.47 X.48 X.49 X.50 X.51 X.52 X.53 X.54 X.55 X.56 X.57 X.58 X.59
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.60 X.61 X.62 X.63 X.64 X.65 X.66 X.67 X.68 X.69 X.70 X.71 X.72 X.73 X.74
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.75 X.76 X.77 X.78 X.79 X.80 X.81 X.82 X.83 X.84 X.85 X.86 X.87 X.88 X.89
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.90 X.91 X.92 X.93 X.94 X.95 X.96 X.97 X.98 X.99 X.100 X.101 X.102 X.103
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.104 X.105 X.106 X.107 X.108 X.109 X.110 X.111 X.112 X.113 X.114 X.115 X.116
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.117 X.118 X.119 X.120 X.121 X.122 X.123 X.124 X.125 X.126 X.127 X.128 X.129
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.130 X.131 X.132 X.133 X.134 X.135 X.136 X.137 X.138 X.139 X.140 X.141 X.142
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.143 X.144 X.145 X.146 X.147 X.148 X.149 X.150 X.151 X.152 X.153 X.154 X.155
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.156 X.157 X.158 X.159 X.160 X.161 X.162 X.163 X.164 X.165 X.166 X.167 X.168
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.169 X.170 X.171 X.172 X.173 X.174 X.175 X.176 X.177 X.178 X.179 X.180 X.181
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.182 X.183 X.184 X.185 X.186 X.187 X.188 X.189 X.190 X.191 X.192 X.193 X.194
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.195 X.196 X.197 X.198 X.199 X.200 X.201 X.202 X.203 X.204 X.205 X.206 X.207
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.208 X.209 X.210 X.211 X.212 X.213 X.214 X.215 X.216 X.217 X.218 X.219 X.220
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.221 X.222 X.223 X.224 X.225 X.226 X.227 X.228 X.229 X.230 X.231 X.232 X.233
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.234 X.235 X.236 X.237 X.238 X.239 X.240 X.241 X.242 X.243 X.244 X.245 X.246
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.247 X.248 X.249 X.250 X.251 X.252 X.253
## 1 NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA
Sau khi thực hiện các câu lệnh trên, kết quảcho thấy đối tượng afmahoa chỉcòn 1260 quan sát, biến Believe chỉnhận một trong hai giá trị: 0, 1.
Cấu trúc xác suất cho các bảng ngẫu nhiên
Dữliệu định tính là tần sốsuất hiện các biểu hiện của các biến. Cho X và Y là hai biến định tính, X có k biểu hiện: $𝐴_1, 𝐴_2,…, 𝐴_k $ và Y có m biểu hiện: \(𝐵_1, 𝐵_2,..., 𝐵_m.\) Chúng ta có thể sử dụng một bảng gồm khàng và m cột để thể hiện kết quảcó thể xảy ra từ việc khảo sát:
Bảng này được gọi là bảng ngẫu nhiên hai chiều 𝑘×𝑚, trong đó \(𝑛_ij\) là số lần quan sát được cặp thuộc tính \((𝐴_i, 𝐵_j)\), còn gọi là tần sốcủa $ (𝐴_i, 𝐵_j)$. Một bảng ngẫu nhiên hai biến được gọi là bảng hai chiều; một bảng ngẫu nhiên 3 biến gọi là bảng ngẫu nhiên 3 chiều.Trong mục này, chúng ta sửdụng bộdữliệu afmahoa (bộdữliệu đã xửlý được mã hóa từfile dữliệu afterlife.xlsx) đểlàm ví dụ.
Lập bảng tần sốvà tần suất cho biến Sex
Đểlập bảng tần sốvà tần suất cho biến Sex, ta thực hiện câu lệnh sau:
af<-read.xlsx(“afterlife.xlsx”, sheetIndex =1, header =TRUE):đọc file afterlife.xlsx và đặt tên af.
afmahoa<-subset(af, Believe <5):câu lệnh trích xuất những quan sát mà giá trịcủa biến Believe <5 và đặt tên afmahoa.
table(afmahoa$Sex):câu lệnh lập bảng tần sốcho biến Sex.
table(afmahoa\(Sex/(sum(afmahoa\)Sex)): câu lệnh lập bảng tần suất cho biến Sex.
head(afmahoa)
## Sex Believe X X.1 X.2 X.3 X.4 X.5 X.6 X.7 X.8 X.9 X.10 X.11 X.12 X.13 X.14
## 1 2 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 2 0 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 1 0 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 2 0 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 2 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 2 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.15 X.16 X.17 X.18 X.19 X.20 X.21 X.22 X.23 X.24 X.25 X.26 X.27 X.28 X.29
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.30 X.31 X.32 X.33 X.34 X.35 X.36 X.37 X.38 X.39 X.40 X.41 X.42 X.43 X.44
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.45 X.46 X.47 X.48 X.49 X.50 X.51 X.52 X.53 X.54 X.55 X.56 X.57 X.58 X.59
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.60 X.61 X.62 X.63 X.64 X.65 X.66 X.67 X.68 X.69 X.70 X.71 X.72 X.73 X.74
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.75 X.76 X.77 X.78 X.79 X.80 X.81 X.82 X.83 X.84 X.85 X.86 X.87 X.88 X.89
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.90 X.91 X.92 X.93 X.94 X.95 X.96 X.97 X.98 X.99 X.100 X.101 X.102 X.103
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.104 X.105 X.106 X.107 X.108 X.109 X.110 X.111 X.112 X.113 X.114 X.115 X.116
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.117 X.118 X.119 X.120 X.121 X.122 X.123 X.124 X.125 X.126 X.127 X.128 X.129
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.130 X.131 X.132 X.133 X.134 X.135 X.136 X.137 X.138 X.139 X.140 X.141 X.142
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.143 X.144 X.145 X.146 X.147 X.148 X.149 X.150 X.151 X.152 X.153 X.154 X.155
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.156 X.157 X.158 X.159 X.160 X.161 X.162 X.163 X.164 X.165 X.166 X.167 X.168
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.169 X.170 X.171 X.172 X.173 X.174 X.175 X.176 X.177 X.178 X.179 X.180 X.181
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.182 X.183 X.184 X.185 X.186 X.187 X.188 X.189 X.190 X.191 X.192 X.193 X.194
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.195 X.196 X.197 X.198 X.199 X.200 X.201 X.202 X.203 X.204 X.205 X.206 X.207
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.208 X.209 X.210 X.211 X.212 X.213 X.214 X.215 X.216 X.217 X.218 X.219 X.220
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.221 X.222 X.223 X.224 X.225 X.226 X.227 X.228 X.229 X.230 X.231 X.232 X.233
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.234 X.235 X.236 X.237 X.238 X.239 X.240 X.241 X.242 X.243 X.244 X.245 X.246
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.247 X.248 X.249 X.250 X.251 X.252 X.253
## 1 NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA
table(afmahoa$Sex)
##
## 1 2
## 519 741
table(afmahoa$Sex)/sum(table(afmahoa$Sex))
##
## 1 2
## 0.4119048 0.5880952
Bằng các câu lệnh tương tựchúng ta có thểlập bảng tần sốvà tần suất cho biến Believe và ta được kết quả.
head(afmahoa)
## Sex Believe X X.1 X.2 X.3 X.4 X.5 X.6 X.7 X.8 X.9 X.10 X.11 X.12 X.13 X.14
## 1 2 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 2 0 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 1 0 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 2 0 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 2 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 2 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.15 X.16 X.17 X.18 X.19 X.20 X.21 X.22 X.23 X.24 X.25 X.26 X.27 X.28 X.29
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.30 X.31 X.32 X.33 X.34 X.35 X.36 X.37 X.38 X.39 X.40 X.41 X.42 X.43 X.44
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.45 X.46 X.47 X.48 X.49 X.50 X.51 X.52 X.53 X.54 X.55 X.56 X.57 X.58 X.59
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.60 X.61 X.62 X.63 X.64 X.65 X.66 X.67 X.68 X.69 X.70 X.71 X.72 X.73 X.74
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.75 X.76 X.77 X.78 X.79 X.80 X.81 X.82 X.83 X.84 X.85 X.86 X.87 X.88 X.89
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.90 X.91 X.92 X.93 X.94 X.95 X.96 X.97 X.98 X.99 X.100 X.101 X.102 X.103
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.104 X.105 X.106 X.107 X.108 X.109 X.110 X.111 X.112 X.113 X.114 X.115 X.116
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.117 X.118 X.119 X.120 X.121 X.122 X.123 X.124 X.125 X.126 X.127 X.128 X.129
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.130 X.131 X.132 X.133 X.134 X.135 X.136 X.137 X.138 X.139 X.140 X.141 X.142
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.143 X.144 X.145 X.146 X.147 X.148 X.149 X.150 X.151 X.152 X.153 X.154 X.155
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.156 X.157 X.158 X.159 X.160 X.161 X.162 X.163 X.164 X.165 X.166 X.167 X.168
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.169 X.170 X.171 X.172 X.173 X.174 X.175 X.176 X.177 X.178 X.179 X.180 X.181
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.182 X.183 X.184 X.185 X.186 X.187 X.188 X.189 X.190 X.191 X.192 X.193 X.194
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.195 X.196 X.197 X.198 X.199 X.200 X.201 X.202 X.203 X.204 X.205 X.206 X.207
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.208 X.209 X.210 X.211 X.212 X.213 X.214 X.215 X.216 X.217 X.218 X.219 X.220
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.221 X.222 X.223 X.224 X.225 X.226 X.227 X.228 X.229 X.230 X.231 X.232 X.233
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.234 X.235 X.236 X.237 X.238 X.239 X.240 X.241 X.242 X.243 X.244 X.245 X.246
## 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA NA NA NA NA NA NA
## X.247 X.248 X.249 X.250 X.251 X.252 X.253
## 1 NA NA NA NA NA NA NA
## 2 NA NA NA NA NA NA NA
## 3 NA NA NA NA NA NA NA
## 4 NA NA NA NA NA NA NA
## 8 NA NA NA NA NA NA NA
## 9 NA NA NA NA NA NA NA
table(afmahoa$Believe)
##
## 0 1
## 428 832
table(afmahoa$Believe)/sum(table(afmahoa$Believe))
##
## 0 1
## 0.3396825 0.6603175
Đểtạo bảng hai chiều chúng ta sửdụng câu lệnh sau:
table(afmahoa\(Sex, afmahoa\)Believe):câu lệnh tạo bảng hai chiều cho 2 biến Sex và Believe.
table(afmahoa$Sex, afmahoa$Believe)
##
## 0 1
## 1 188 331
## 2 240 501
Đểtính OddsRatio của hàng 1 và hàng 2 trong bảng hai chiều, ta thực hiện câu lệnh sau:
B1. install.packages(“DescTools”):cài đặt gói DescTools.
B2. library(DecsTools):gọi gói DescTools.
B3. OddsRatio(data, conf.level =NULL, y =NULL, method = “wald”): câu lệnh tính giá trịOddsRatio; trong đó: data là bảng hai chiều; conf.level: độtin cậy mặc nhiên 95%; y là véc tơ các giá trịcần tính giá trịOddsRatio; method =“wald”: phương pháp wald
B1. library(DecsTools):gọi packages DescTools.
B2. v<-c(189, 104, 10845, 10933): câu lệnh tạo véc tơ v.
B3.data<-matrix(v, 2):câu lệnh tạo ma trận cấp 2 (bảng 2 chiều) và đặt tên data.data: câu lệnh xem data.
B4. y<-c(189, 104):câu lệnh tạo véc tơ y.
B5. OddsRatio(data, conf.level =NULL, y =NULL, method = “wald”): câu lệnh tính OddsRatio.
library(DescTools)
## Warning: package 'DescTools' was built under R version 4.3.1
v<- c(189,104, 10485, 10933)
x <- matrix(v,2,2)
y<- c(189,104)
OddsRatio(x, conf.level = 0.95, y = NULL, method = "wald")
## odds ratio lwr.ci upr.ci
## 1.894957 1.489448 2.410867
Kết quảtỷlệchênh (OddsRatio) là 1,832054. Giá trịnày cho chúng ta biết tỷlệngười bịbệnh nhồi máu cơ tim đối với nhóm người dùng Placebo(giảdược) cao hơn 83,2% so với nhóm người sửdụng thuốc Aspirin.
Đểlàm bài toán ước lượng tỷlệbằng R, ta thực hiện câu lệnh sau:
B1. install.packages(“DescTools”): cài đặt gói DescTools.
B2. library(DecsTools): gọi gói DescTools.
B3. BinomCI(k, n, conf.level =NULL, method = “wald”):câu lệnh ước lượng tỷlệmột tổng thể; trong đó, k: sốphần tửcó tính chấtA, n: sốphần tử mẫu, conf.level =NULL: độtin cậy mặc định là 95%, method =wald: phương pháp wald.
Chúng ta lấy dữliệu từfile có tên afterlife.xlsx dểminh họa cho các câu lệnh trên.
Đểước lượng tỷlệnhững người tin rằng “Tồn tại một thếgiới khác sau khi chết” ta làm như sau:
setwd("F:/PhanmemR")
af <- read.csv("afterlife.csv")
library(DescTools)
af1 <- af$Believe
af2 <- af1[af1<5]
k <- length(af2[af2 <3])
n <- length(af2)
BinomCI(k, n, conf.level = 0.95, method = "wald")
## est lwr.ci upr.ci
## [1,] 0.6603175 0.6341672 0.6864677
Ta được khoảng ước lượng tỷlệnhững người tin “Tồn tại thếgới khác sau khi chết” với độtin cậy 95% là: 0.6341672≤𝑝≤0.6864677
Đểthực hiện ước lượng sựkhác biệt tỷlệhai tổng thể bằng R, ta thực hiện các câu lẹnh sau:
B1. install.packages(“DescTools”):câu lệnh cài đặt gói DescTools.
B2. library(DecsTools): câu lệnh gọi gói DescTools.
B3. BinomDiffCI(k2, n2, k1, n1, conf.level =NULL, method = “wald”): câu lệnh ước lượng sựkhác biệt hai tỷlệtổng thể, ki: sốphần tửcó tính chất A của mẫu i, ni: sốphần tửmẫu thứi, conf.level =NULL: độtin cậy mặc định là 95%, method =wald: phương pháp wald.
Chúng ta lấy dữliệu từfile có tên afterlife.xlsx dểminh họa cho các câu lệnh trên.
Bài toán: ước lượng sựkhác biệt tỷlệNam và Nữtin “Tồn tại thếgới khác sau khi chết”
setwd("F:/PhanmemR")
library(DescTools)
library(readxl)
## Warning: package 'readxl' was built under R version 4.3.1
af <- read.csv("afterlife.csv")
af1 <- subset(af, Believe < 5)
table(af1)
## < table of extent 2 x 4 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 x 0 >
n1 <- table(af1$Sex)[1]
n2 <- table(af1$Sex)[2]
k1 <- table(af1$Sex, af1$Believe)[1,1]+ table(af1$Sex, af1$Believe)[1,2]
k2 <- table(af1$Sex, af1$Believe)[2,1]+ table(af1$Sex, af1$Believe)[2,2]
BinomDiffCI(k2,n2, k1, n1, conf.level = 0.95, method = "wald")
## est.2 lwr.ci upr.ci
## [1,] 0.03834843 -0.01499184 0.09168869
Kết quảkhoảng ước lượng sựkhác biệt tỷlệNam và Nữtin “Tồn tại thếgới khác sau khi chết” với độtin cậy 95% là: −0,01499184≤𝑝$−𝑝%≤0,09168869
Bài toán: Giả sử X và Y là hai biến quan sát định danh. Qua điều tra, biến Xcó kthuộc tính (hay kdấu hiệu):$𝐴_1, 𝐴_2,…, 𝐴_k $; biến Ycó m thuộc tính: \(𝐵_1, 𝐵_2,..., 𝐵_m.\), nhận được bảng sau,với\(𝑛_ij\) là sốlần xuất hiện cặp \((𝐴_i, 𝐵_j)\), và \(𝑛_ij\)=𝑛.
Với mức ý nghĩa 𝛼, hãy xác minh xem Xvà Ycó độc lập hay không. Việc xác minh này được gọi là kiểm định vềtính độc lập.
Giả thuyết H0: X và Y độc lập nhau
Đểthực hiện kiểm định tính độc lập cho hai biến định danh bằng R ta làm như sau.
B1. Nhập dữliệu (bảng ngẫu nhiên) cho đềbài.
B2. Thực hiện kiểm định tính độc lập 2biến định danh bởicâu lệnh: chisq.test( ).
Chúng ta minh họa kiểm định trên thông qua ví dụ sau:
Đểxác minh xem sựủng hộcủa người dân trong nước vềmột sắc thuếmới có phụthuộc vào mức thu nhập của họhay không, tiến hành điều tra ngẫu nhiên 1000 công dân.
Với mức ý nghĩa 5%, dựa vào điều tra, hãy cho kết luận vềviệc này.Gọi Y là thái độ của công dân đối với sắc thuế mới, với 2 thuộc tính: “ủng hộ”, “phản đối”; Xlà mức thu nhập của công dân, với 3 thuộc tính: “thấp”, “trung bình”, “cao”. Bài toán ởđây là kiểm định vềtính độc lập của Xvà Y:
Ta tiến hành kiểm định tính độc lập X và Y bằng Rtheo các bước trên ta được kết quả như sau:
ungho <- c(182, 213,203)
phandoi <- c(154,138,110)
data <- as.data.frame(rbind(ungho, phandoi))
names(data) <- c('Thap', 'Trung binh', 'cao')
data
## Thap Trung binh cao
## ungho 182 213 203
## phandoi 154 138 110
chisq.test(data)
##
## Pearson's Chi-squared test
##
## data: data
## X-squared = 7.8782, df = 2, p-value = 0.01947
Từ bảng kết quả trên, ta có p- value =0,01947<0,05: Bác bỏ Ho
Kết luận, sự ủng hộ của người dân trong nước về một sắc thuế mới có phụ thuộc vào mức thu nhập của họ,với mức ý nghĩa 5%.
Chú ý:Đối với bài toán này, trên Eviews thao tác như sau:
-Nhập dữliệu của X và của Y
-Từ cửa sốGroup,chọn:View - N way Tabulation - OK
-Căn cứvào cột Prob. (p-value) Của một trong hai thống kê: Pearson hoặc Liklihood ratio đểkết luận.
Nếu (p-value)<𝛼thì bác 𝐻,(X và Y độc lập)
Khi biến dòng X và biến cột Y là thứtự, một liên kết “xu hướng” là khá phổ biến. Đó là khi mức X tăng lên, các phản ứng đối với Ycó xu hướng tăng lên các cấp độ cao hơn, hoặc các phản ứng đối với Y có khuynh hướng giảm xuống các cấp độ thấp hơn. Người ta có thể sử dụng một tham số để mô tả mối liên kết xu hướng thứ bậc như vậy. Phân tích phổ biến nhất là cho điểm và định tính mức độ của xu hướng tuyến tính hoặc tương quan.
Phần tiếp theo trình bày một thống kê kiểm định nhạy cảm với các xu hướng tuyến tính tích cực hoặc tiêu cực trong mối quan hệgiữa Xvà Y. Nó sử dụng các thông tin quan trong dữliệu.
-Tiến hành gán các điểm số\(𝑢_1≤𝑢_2...≤⋯≤𝑢_k\)cho các hàng, và \(𝑣_1≤𝑣_2≤⋯≤𝑣_m\) & cho các cột. Điểm có cùng thứ tự như các cấp độ định tính và được cho là đơn điệu. Nguyên tắc gán điểm là: điểm sốphản ánh khoảng cách giữa các loại, với khoảng cách lớn hơn giữa các loại được sắp xếp xa nhau hơn. Khi đó bảng thống kê 𝑘×𝑚.
Giả thuyết \(𝐻_0\),: X và Y độc lập (thống kê)
Để thực hiện kiểm định tính độc lập cho biến định tính có thang đo thứ bậc ta thực hiện các bước sau:
B1. Cài đặt và gọi packages (“vcdExtra”)
B2. Thực hiện kiểm định bằng câu lệnh: CMHtest(data, rscores =c(), cscores =c()),trong đó data: bảng ngẫu nhiên, rscores = c() là điểm cho tương ứng theo biến X (hàng), cscores = c() là điểm cho tương ứng theo biến Y (cột).
Chúng ta minh họa kiểm định trên bằng ví dụsau: Theo dõi ngẫu nhiên một số sản phẩm về chất lượng: Loại 1, Loại 2, Loại 3 được sản xuất ở các ca: ngày, đêm.
Với mức ý nghĩa 5%, có thể cho rằng chất lượng sản phẩm phụthuộc vào ca sản xuất hay không?
Ta cần kiểm định về tính độc lập của X (ca sản xuất) và Y (chất lượng sản phẩm), giả thuyết H0: X và Y độc lập nhau.
Đối với X, ta gán 0 cho ca đêm, 1 cho ca ngày. Đối với Y ta sử dụng điểm midrank: Loại 3 được gán số 5,5; loại 2 được gán số 24,5;loại 1 được gán số 97,5.
Các bước kiểm định tính độc lập cho 𝑋và 𝑌được thực hiện như sau:
cadem <- c(81,15,9)
cangay <- c(118, 28,10)
data <- as.matrix(rbind(cadem, cangay))
data
## [,1] [,2] [,3]
## cadem 81 15 9
## cangay 118 28 10
Chúng ta xét mô hình hồi quy hai biến số: \(𝑦=𝛽_1 +𝛽_2𝑥+𝑢\)
Trong phần này, chúng ta lấy bộ sốliệu CPS1988.csv làm ví dụminh họa cho nội dung trên.
Trước hết chúng ta đánh giá mối quan hệ giữa biến width và biến color.
Từ bộ sốliệu ta nhận thấy khi width tăng lên thì color cũng tăng, ta có đồ thị phân tán của color theo width bằng câu lệnh sau:plot(color~width, pch = 16): đồ thi phân tán của của color theo width
setwd("F:/PhanmemR")
CPS1988 <- read.csv("CPS1988.csv")
width <- CPS1988$width
color <- CPS1988$color
plot(color~width, pch = 16)
plot
## function (x, y, ...)
## UseMethod("plot")
## <bytecode: 0x0000017268b5f6e8>
## <environment: namespace:base>
Dựa vào đồ thị phân tán ta cũng có kết quả như nhận xét ban đầu.
Tuy nhiên để đánh giá chính xác mối quan hệ tuyến tính giữa biến width và biến color ta dùng hệ số tương quan để đánh giá.Hệ số tương quan biến width và biến color được tính bằng hàm câu lệnh sau:
cor(color, width):câu lệnh tính hệ số tương quan giữa biến width và biến color.
cor(color,width)
## [1] -0.2643863
Kết quảcâu lệnh cho thấy hệ số tương quan giữa biến width và biến color là 0,301644.Chúng ta có thểkiểm định giảthuyết tương quan giữa biến width và biến color (tức là hệsốtương quan giữa biến width và biến color bằng 0) với hàm cor.test ()có sẵn trong R:
cor.test(color,width)
##
## Pearson's product-moment correlation
##
## data: color and width
## t = -3.5849, df = 171, p-value = 0.0004397
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3978912 -0.1199164
## sample estimates:
## cor
## -0.2643863
Ta có p-value \(<0.0004397<0,05\) ta bác bỏgiảthuyết hệsốtương quan giữa 𝑤biến width và biến color bằng 0.Để ước lượng mô hình hồi quy đơn bằng phần mềm R, chúng ta thực hiện câu lệnh sau:
reg <- lm(𝑦~𝑥,data = CSP1988): câu lệnh hồi quy tuyến tính 𝑦theo 𝑥và đặt tên reg; data = CPS1988: dữ liệu chính là đối tượng CPS1988.
reg <- lm(color~width, data = CPS1988)
reg
##
## Call:
## lm(formula = color ~ width, data = CPS1988)
##
## Coefficients:
## (Intercept) width
## 6.0831 -0.1005
summary(reg)
##
## Call:
## lm(formula = color ~ width, data = CPS1988)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.6201 -0.4995 -0.2381 0.5206 1.8624
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.08308 0.73984 8.222 4.81e-14 ***
## width -0.10053 0.02804 -3.585 0.00044 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7757 on 171 degrees of freedom
## Multiple R-squared: 0.0699, Adjusted R-squared: 0.06446
## F-statistic: 12.85 on 1 and 171 DF, p-value: 0.0004397
Lệnh summary(reg) yêu cầu R liệt kê các tính toán trong reg gồm các phần sau:
Phần một mô tảchi tiết phần dư (Residuals) của hàm hồi quy
Phần hai trình bày ước sốcủa \(𝛽_1\)và \(𝛽_2\) cùng với sai số chuẩn và giá trị của kiểm định t.
Phần ba của kết quả cho chúng ta thông tin vềphương sai của phần dư (residual mean square). Trong kết quảnày còn có kiểm định F, cũng chỉlà một kiểm định xem có quảthật \(𝛽_2\)=0, tức có ý nghĩa tương tựnhư kiểm định t trong phần trên. Nói chung, trong trường hợp phân tích hồi qui tuyến tính đơn giản (với một yếu tố) chúng ta không cần phải quan tâm đến kiểm định F.