Mô tả biến:
SportsCards chứa dữ liệu từ 148 nhà giao dịch được chọn ngẫu nhiên đã tham dự một triển lãm giao dịch thẻ bài ở Orlando, Florida, vào năm 1998. Giao dịch thẻ thể thao: Quyền sở hữu thẻ có làm tăng giá trị hàng hóa cho người tham gia không?
Một khung dữ liệu chứa 148 quan sát trên 9 biến.
library(DT)
library(AER)
library(ggplot2)
data("SportsCards")
d <- SportsCards
datatable(d)
Ta chọn 3 biến định tính để làm là biến Dealer, good và biến trade
d11 <- table(d$dealer)
d11
##
## no yes
## 74 74
prop.table(d11)
##
## no yes
## 0.5 0.5
d |> ggplot(aes(x = dealer, y = after_stat(count),fill = dealer)) +
geom_bar(position = 'dodge') +
ylab('Số lượng') +
xlab('Họ có phải đại lý không?')
Tại buổi triển lãm thẻ giao dịch ở Orlando, Florida số người không phải là đại lý và số người là đại lý cung cấp thẻ là như nhau (chiếm 50%).
d12 <- table(d$trade)
d12
##
## no yes
## 98 50
prop.table(d12)
##
## no yes
## 0.6621622 0.3378378
d |> ggplot(aes(x = trade, y = after_stat(count),fill = trade)) +
geom_bar(position = 'dodge') +
ylab('Số lượng') +
xlab('Tình trạng trao đổi thẻ')
Trong đó, có 98 người không trao đổi thẻ chiếm 66,22% và 50 người có trao đổi tại buổi giao dịch thẻ chiếm 33,78%.
d13 <- table(d$good)
d13
##
## A B
## 70 78
prop.table(d13)
##
## A B
## 0.472973 0.527027
d |> ggplot(aes(x = good, y = after_stat(count),fill = good)) +
geom_bar(position = 'dodge') +
ylab('Số lượng') +
xlab('Loại thẻ trao đổi')
Trong đó, có 70 là thẻ loại A (Mẩu vé trận đấu Cal Ripken Jr. phá kỷ lục thi đấu liên tiếp) chiếm 47,3% và 78 thẻ loại B (Quà lưu niệm từ trận đấu Nolan Ryan giành chiến thắng thứ 300) chiếm 52,7%.
d2 <- table(d$dealer, d$trade)
d2
##
## no yes
## no 57 17
## yes 41 33
prop.table(d2)
##
## no yes
## no 0.3851351 0.1148649
## yes 0.2770270 0.2229730
addmargins(d2)
##
## no yes Sum
## no 57 17 74
## yes 41 33 74
## Sum 98 50 148
barplot(d2, beside=T, legend=T)
Kết quả cho thấy:
d3 <- table(d$good, d$trade)
d3
##
## no yes
## A 47 23
## B 51 27
prop.table(d3)
##
## no yes
## A 0.3175676 0.1554054
## B 0.3445946 0.1824324
addmargins(d3)
##
## no yes Sum
## A 47 23 70
## B 51 27 78
## Sum 98 50 148
barplot(d3, beside=T, legend=T)
Kết quả cho thấy:
Khi giao dịch thẻ, tỷ lệ người giữ thẻ loại A là 47,2973% và người giữ thẻ loại B là 52,7027%.
Lúc này kiểm tra xem người không trao đổi thẻ có thực sự chiếm 66,22% hay không?
khongtraodoi <- d[d$trade == "khongtraodoi"]
khongtraodoi
## data frame with 0 columns and 148 rows
prop.test(length(khongtraodoi$trade), length(d$trade), p=0.6622)
##
## 1-sample proportions test with continuity correction
##
## data: length(khongtraodoi$trade) out of length(d$trade), null probability 0.6622
## X-squared = 287.18, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.6622
## 95 percent confidence interval:
## 0.00000000 0.03153216
## sample estimates:
## p
## 0
Vì p_value = 2e-16 < 0,05 nên bác bỏ giả thuyết H0. Vậy người không trao đổi chiếm 66,22% là có sai số.
Kiểm định xem tỷ lệ đối tượng là đại lý có trao đổi thẻ có phải là 22.3% không?
# Chỉ lấy dữ liệu người trao đổi
dt<- d[d$trade == "yes",]
# Lấy dữ liệu về đối tượng là đại lý có trao đổi thẻ
ddt<-dt[dt$dealer == "yes",]
# Kiểm tra tỷ lệ
prop.test(length(ddt$dealer), length(dt$dealer), p = 0.223)
##
## 1-sample proportions test with continuity correction
##
## data: length(ddt$dealer) out of length(dt$dealer), null probability 0.223
## X-squared = 52.614, df = 1, p-value = 4.06e-13
## alternative hypothesis: true p is not equal to 0.223
## 95 percent confidence interval:
## 0.5114459 0.7840536
## sample estimates:
## p
## 0.66
Kết quả cho thấy:
Kiểm định xem tỷ lệ đối tượng số hữu thẻ A có trao đổi thẻ có phải là 18,24% không?
# Lấy dữ liệu về đối tượng sỡ hữu thẻ A có trao đổi thẻ
dgt<-dt[dt$good == "A",]
# Kiểm tra tỷ lệ
prop.test(length(dgt$good), length(dt$good), p = 0.1824)
##
## 1-sample proportions test with continuity correction
##
## data: length(dgt$good) out of length(dt$good), null probability 0.1824
## X-squared = 24.009, df = 1, p-value = 9.588e-07
## alternative hypothesis: true p is not equal to 0.1824
## 95 percent confidence interval:
## 0.3206341 0.6054719
## sample estimates:
## p
## 0.46
Kết quả cho thấy:
riskratio(d2)
## $data
##
## no yes Total
## no 57 17 74
## yes 41 33 74
## Total 98 50 148
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## no 1.000000 NA NA
## yes 1.941176 1.191098 3.163607
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0.005869866 0.00880077 0.005424327
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Từ kết quả trên cho thấy tỷ lệ rủi ro (risk ratio) giữa 2 biến “dealer - đại lý” và “Trade - Trao đổi”:
Đối với người không phải là đại lý và không trao đổi hàng hóa (có 74 người), tỷ lệ rủi ro được đánh giá là 1.000000. Tuy nhiên, không có khoảng tin cậy (NA) được đưa ra cho giá trị này.
Đối với người là đại lý (có 74 người), tỷ lệ rủi ro được ước tính là 1.941176. Khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 1.191098 đến 3.163607. Điều này có nghĩa là có 95% khả năng tỷ lệ rủi ro nằm trong khoảng này.
Giá trị p-value cho nhóm “Họ là đại lý” rất nhỏ (xấp xỉ 0.006), điều này cho thấy rằng tỷ lệ rủi ro giữa nhóm “họ là đại lý” và nhóm “họ không phải là đại lý” là có ý nghĩa thống kê và không phải do ngẫu nhiên.
riskratio(d3)
## $data
##
## no yes Total
## A 47 23 70
## B 51 27 78
## Total 98 50 148
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## A 1.000000 NA NA
## B 1.053512 0.6697663 1.657126
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## A NA NA NA
## B 0.8248606 0.8630064 0.8213635
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Từ kết quả trên cho thấy tỷ lệ rủi ro (risk ratio) giữa 2 biến “good - loại thẻ” và “Trade - Trao đổi”:
Đối với người sỡ hữu thẻ loại A và không trao đổi hàng hóa (có 70 người), tỷ lệ rủi ro được đánh giá là 1.000000. Tuy nhiên, không có khoảng tin cậy (NA) được đưa ra cho giá trị này.
Đối với người sỡ hữu thẻ loại B (có 78 người), tỷ lệ rủi ro được ước tính là 1.053512. Khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 0.6697663 đến 1.657126. Điều này có nghĩa là có 95% khả năng tỷ lệ rủi ro nằm trong khoảng này.
Giá trị p-value cho nhóm “Sỡ hữu thẻ loại B” rất lớn (xấp xỉ 0.825 > 0,05), điều này cho thấy rằng tỷ lệ rủi ro giữa nhóm “sỡ hữu thẻ loại A” và nhóm “sỡ hữu thẻ loại B” cho thấy không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.
epitab(d2, method = "oddsratio")
## $tab
##
## no p0 yes p1 oddsratio lower upper p.value
## no 57 0.5816327 17 0.34 1.000000 NA NA NA
## yes 41 0.4183673 33 0.66 2.698709 1.327399 5.486692 0.00880077
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Kết quả cho thấy tỷ lệ chênh (Odds Ratio) giữa hai nhóm “họ là không phải đại lý” và “Họ là đại lý” không bằng nhau. Tỷ lệ chênh cho nhóm “Họ là đại lý” là khoảng 1.698709 lần so với nhóm “Họ không phải đại lý”. Giá trị p-value là 0.00880077 (gần bằng 0) cho thấy sự khác biệt này là có ý nghĩa thống kê đáng kể.
epitab(d3, method = "oddsratio")
## $tab
##
## no p0 yes p1 oddsratio lower upper p.value
## A 47 0.4795918 23 0.46 1.000000 NA NA NA
## B 51 0.5204082 27 0.54 1.081841 0.5464923 2.141624 0.8630064
##
## $measure
## [1] "wald"
##
## $conf.level
## [1] 0.95
##
## $pvalue
## [1] "fisher.exact"
Kết quả cho thấy tỷ lệ chênh (odds ratio) giữa hai nhóm “sỡ hữu thẻ A” và “Sỡ hữu thẻ B” không bằng nhau. Tỷ lệ chênh cho nhóm “Sỡ hữu thẻ B” là khoảng 0.081841 lần so với nhóm “Sỡ hữu thẻ A”. Tuy nhiên, giá trị p-value (0.8630064) cho thấy sự khác biệt này không đáng kể thống kê, tức là không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.
Đầu tiên, kiếm kịnh xem biến “dealer” và biến “trade” có độc lập hay không?
H0: Biến dealer độc lập biến trade (Việc họ là đại lý hay không nó không ảnh hưởng đến việc trao đổi hàng hóa)
H1: Biến dealer phụ thuộc biến trade (Tức là họ có là đại lý hay không thì nó vẫn ảnh hưởng đến việc trao đổi hàng hóa)
chisq.test(d2)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: d2
## X-squared = 6.7959, df = 1, p-value = 0.009137
Kết quả cho thấy, p_value = 0,009 < 0,05 nên bác bỏ H0. Vậy có nghĩa là với mức ý nghĩa 5%, việc trao đổi thẻ phụ thuộc bởi các đối tượng có phải đại lý hay không.
Tiếp theo, kiếm kịnh xem biến “good” và biến “trade” có độc lập hay không?
H0: Biến good độc lập biến trade (Loại thẻ trao đổi không ảnh hưởng đến việc trao đổi hàng hóa)
H1: Biến good phụ thuộc biến trade (Loại thẻ trao đổi có ảnh hưởng đến việc trao đổi hàng hóa)
chisq.test(d3)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: d3
## X-squared = 0.0026774, df = 1, p-value = 0.9587
Kết quả cho thấy, p_value = 0,9587 > 0,05 nên chưa đủ cơ sở để bác bỏ H0. Vậy có nghĩa là với mức ý nghĩa 5%, việc trao đổi thẻ không phụ thuộc bởi các đối tượng nắm giữ thẻ loại A hoặc B.