1 Giới thiệu bộ dữ liệu

Mô tả biến:

SportsCards chứa dữ liệu từ 148 nhà giao dịch được chọn ngẫu nhiên đã tham dự một triển lãm giao dịch thẻ bài ở Orlando, Florida, vào năm 1998. Giao dịch thẻ thể thao: Quyền sở hữu thẻ có làm tăng giá trị hàng hóa cho người tham gia không?

Một khung dữ liệu chứa 148 quan sát trên 9 biến.

  • good: Là biến định tính cho biết thẻ loại A (Mẩu vé trận đấu Cal Ripken Jr. phá kỷ lục thi đấu liên tiếp) hay thẻ loại B (Quà lưu niệm từ trận đấu Nolan Ryan giành chiến thắng thứ 300)
  • dealer: Là biến định tính cho biết cá nhân đó có phải là đại lý hay không?
  • permonth: Là biến định lượng cho biết Số lượng giao dịch mỗi tháng được báo cáo bởi cá nhân.
  • years: Là biến định lượng cho biết số năm mà cá nhân đã giao dịch.
  • income: Là biến định lượng cho biết chỉ ra nhóm thu nhập (trong 1000 USD).
  • gender: Là biến định tính cho biết giới tính
  • education: Là biến định tính cho thấy trình độ học vấn cao nhất (lớp 8, trung học phổ thông, sau trung học phổ, năm 2 đại học, năm 4 đại học và sau đại học).
  • age: Là biến định lượng cho biết tuổi
  • trade: Là biến định tính cho biết cá nhân có trao đổi thẻ hay không?
library(DT)
library(AER)
library(ggplot2)
data("SportsCards")
d <- SportsCards
datatable(d)

Ta chọn 3 biến định tính để làm là biến Dealer, good và biến trade

2 Lập bảng tần số và đồ thị

2.1 Biến “dealer” - Cá nhân đó có phải đại lý hay không?

d11 <- table(d$dealer)
d11
## 
##  no yes 
##  74  74
prop.table(d11)
## 
##  no yes 
## 0.5 0.5
d |> ggplot(aes(x = dealer, y = after_stat(count),fill = dealer)) +
  geom_bar(position = 'dodge') +
  ylab('Số lượng') +
  xlab('Họ có phải đại lý không?')

Tại buổi triển lãm thẻ giao dịch ở Orlando, Florida số người không phải là đại lý và số người là đại lý cung cấp thẻ là như nhau (chiếm 50%).

2.2 Biến “trade” - Họ có trao đổi hàng hóa không?

d12 <- table(d$trade)
d12
## 
##  no yes 
##  98  50
prop.table(d12)
## 
##        no       yes 
## 0.6621622 0.3378378
d |> ggplot(aes(x = trade, y = after_stat(count),fill = trade)) +
  geom_bar(position = 'dodge') +
  ylab('Số lượng') +
  xlab('Tình trạng trao đổi thẻ')

Trong đó, có 98 người không trao đổi thẻ chiếm 66,22% và 50 người có trao đổi tại buổi giao dịch thẻ chiếm 33,78%.

2.3 Biến “good” - loại thẻ trao đổi

d13 <- table(d$good)
d13
## 
##  A  B 
## 70 78
prop.table(d13)
## 
##        A        B 
## 0.472973 0.527027
d |> ggplot(aes(x = good, y = after_stat(count),fill = good)) +
  geom_bar(position = 'dodge') +
  ylab('Số lượng') +
  xlab('Loại thẻ trao đổi')

Trong đó, có 70 là thẻ loại A (Mẩu vé trận đấu Cal Ripken Jr. phá kỷ lục thi đấu liên tiếp) chiếm 47,3% và 78 thẻ loại B (Quà lưu niệm từ trận đấu Nolan Ryan giành chiến thắng thứ 300) chiếm 52,7%.

2.4 Cặp biến “dealer” và “trade”: Người đó có phải đại lý hay không trong việc trao đổi hàng hóa

d2 <- table(d$dealer, d$trade)
d2
##      
##       no yes
##   no  57  17
##   yes 41  33
prop.table(d2)
##      
##              no       yes
##   no  0.3851351 0.1148649
##   yes 0.2770270 0.2229730
addmargins(d2)
##      
##        no yes Sum
##   no   57  17  74
##   yes  41  33  74
##   Sum  98  50 148
barplot(d2, beside=T, legend=T)

Kết quả cho thấy:

  • Với những người không phải là đại lý, có 57 người không trao đổi thẻ (38,51%) và 17 người có trao đổi thẻ (11,49%).
  • Với những người họ là đại lý, có 41 người không trao đổi thẻ (27,7%) và 33 người có trao đổi thẻ (22,3%).

2.5 Biến “good” và “trade”: Người sỡ hữu thẻ và họ có trao đổi hàng hóa hay không ?

d3 <- table(d$good, d$trade)
d3
##    
##     no yes
##   A 47  23
##   B 51  27
prop.table(d3)
##    
##            no       yes
##   A 0.3175676 0.1554054
##   B 0.3445946 0.1824324
addmargins(d3)
##      
##        no yes Sum
##   A    47  23  70
##   B    51  27  78
##   Sum  98  50 148
barplot(d3, beside=T, legend=T)

Kết quả cho thấy:

  • Với thẻ loại A, có 47 người không trao đổi thẻ (31,76%) và 23 người có trao đổi thẻ (15,54%).
  • Với thẻ loại B, có 51 người không trao đổi thẻ (34,46%) và 27 người có trao đổi thẻ (18,24%).

3 Ước lượng tỷ lệ

Khi giao dịch thẻ, tỷ lệ người giữ thẻ loại A là 47,2973% và người giữ thẻ loại B là 52,7027%.

Lúc này kiểm tra xem người không trao đổi thẻ có thực sự chiếm 66,22% hay không?

khongtraodoi <- d[d$trade == "khongtraodoi"]
khongtraodoi
## data frame with 0 columns and 148 rows
prop.test(length(khongtraodoi$trade), length(d$trade), p=0.6622)
## 
##  1-sample proportions test with continuity correction
## 
## data:  length(khongtraodoi$trade) out of length(d$trade), null probability 0.6622
## X-squared = 287.18, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.6622
## 95 percent confidence interval:
##  0.00000000 0.03153216
## sample estimates:
## p 
## 0

Vì p_value = 2e-16 < 0,05 nên bác bỏ giả thuyết H0. Vậy người không trao đổi chiếm 66,22% là có sai số.

3.1 Ước lượng tỷ lệ đối tượng là đại lý có trao đổi thẻ

Kiểm định xem tỷ lệ đối tượng là đại lý có trao đổi thẻ có phải là 22.3% không?

  • H0: p = 22,3%
  • H1: p # 22,3%
# Chỉ lấy dữ liệu người trao đổi
dt<- d[d$trade == "yes",]
# Lấy dữ liệu về đối tượng là đại lý có trao đổi thẻ
ddt<-dt[dt$dealer == "yes",]
# Kiểm tra tỷ lệ
prop.test(length(ddt$dealer), length(dt$dealer), p = 0.223)
## 
##  1-sample proportions test with continuity correction
## 
## data:  length(ddt$dealer) out of length(dt$dealer), null probability 0.223
## X-squared = 52.614, df = 1, p-value = 4.06e-13
## alternative hypothesis: true p is not equal to 0.223
## 95 percent confidence interval:
##  0.5114459 0.7840536
## sample estimates:
##    p 
## 0.66

Kết quả cho thấy:

  • Vì p-value = 4.06e-13 < 0.05 nên bác bỏ H0. Vì vậy, đối tượng là đại lý có trao đổi thẻ không bằng 22.3% với mức ý nghĩa 5%
  • Với khoảng tin cậy 95% ước lượng tỷ lệ đối tượng là đại lý có trao đổi thẻ trong khoảng từ 0.5114459 đến 0.7840536

3.2 Ước lượng tỷ lệ đối tượng sỡ hữu thẻ A có trao đổi thẻ

Kiểm định xem tỷ lệ đối tượng số hữu thẻ A có trao đổi thẻ có phải là 18,24% không?

  • H0: p = 18,24%
  • H1: p # 18,24%
# Lấy dữ liệu về đối tượng sỡ hữu thẻ A có trao đổi thẻ
dgt<-dt[dt$good == "A",]
# Kiểm tra tỷ lệ
prop.test(length(dgt$good), length(dt$good), p = 0.1824)
## 
##  1-sample proportions test with continuity correction
## 
## data:  length(dgt$good) out of length(dt$good), null probability 0.1824
## X-squared = 24.009, df = 1, p-value = 9.588e-07
## alternative hypothesis: true p is not equal to 0.1824
## 95 percent confidence interval:
##  0.3206341 0.6054719
## sample estimates:
##    p 
## 0.46

Kết quả cho thấy:

  • Vì p-value = 9.588e-07 < 0.05 nên bác bỏ H0. Vì vậy, đối tượng sỡ hữu thẻ A có trao đổi thẻ không bằng 18,24% với mức ý nghĩa 5%
  • Với khoảng tin cậy 95% ước lượng tỷ lệ đối tượng sỡ hữu thẻ A có trao đổi thẻ trong khoảng từ 0.3206341 đến 0.6054719

4 Relative risk

4.1 Biến “dealer” và “trade”: Người đó có phải là đại lý hay không trong trường hợp không trao đổi hàng hóa

riskratio(d2)
## $data
##        
##         no yes Total
##   no    57  17    74
##   yes   41  33    74
##   Total 98  50   148
## 
## $measure
##      risk ratio with 95% C.I.
##       estimate    lower    upper
##   no  1.000000       NA       NA
##   yes 1.941176 1.191098 3.163607
## 
## $p.value
##      two-sided
##        midp.exact fisher.exact  chi.square
##   no           NA           NA          NA
##   yes 0.005869866   0.00880077 0.005424327
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Từ kết quả trên cho thấy tỷ lệ rủi ro (risk ratio) giữa 2 biến “dealer - đại lý” và “Trade - Trao đổi”:

  • Đối với người không phải là đại lý và không trao đổi hàng hóa (có 74 người), tỷ lệ rủi ro được đánh giá là 1.000000. Tuy nhiên, không có khoảng tin cậy (NA) được đưa ra cho giá trị này.

  • Đối với người là đại lý (có 74 người), tỷ lệ rủi ro được ước tính là 1.941176. Khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 1.191098 đến 3.163607. Điều này có nghĩa là có 95% khả năng tỷ lệ rủi ro nằm trong khoảng này.

  • Giá trị p-value cho nhóm “Họ là đại lý” rất nhỏ (xấp xỉ 0.006), điều này cho thấy rằng tỷ lệ rủi ro giữa nhóm “họ là đại lý” và nhóm “họ không phải là đại lý” là có ý nghĩa thống kê và không phải do ngẫu nhiên.

4.2 Biến “good” và “trade”: người sỡ hữu thẻ A hoặc B trong trường hợp không trao đổi hàng hóa.

riskratio(d3)
## $data
##        
##         no yes Total
##   A     47  23    70
##   B     51  27    78
##   Total 98  50   148
## 
## $measure
##    risk ratio with 95% C.I.
##     estimate     lower    upper
##   A 1.000000        NA       NA
##   B 1.053512 0.6697663 1.657126
## 
## $p.value
##    two-sided
##     midp.exact fisher.exact chi.square
##   A         NA           NA         NA
##   B  0.8248606    0.8630064  0.8213635
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Từ kết quả trên cho thấy tỷ lệ rủi ro (risk ratio) giữa 2 biến “good - loại thẻ” và “Trade - Trao đổi”:

  • Đối với người sỡ hữu thẻ loại A và không trao đổi hàng hóa (có 70 người), tỷ lệ rủi ro được đánh giá là 1.000000. Tuy nhiên, không có khoảng tin cậy (NA) được đưa ra cho giá trị này.

  • Đối với người sỡ hữu thẻ loại B (có 78 người), tỷ lệ rủi ro được ước tính là 1.053512. Khoảng tin cậy 95% cho tỷ lệ rủi ro nằm trong khoảng từ 0.6697663 đến 1.657126. Điều này có nghĩa là có 95% khả năng tỷ lệ rủi ro nằm trong khoảng này.

  • Giá trị p-value cho nhóm “Sỡ hữu thẻ loại B” rất lớn (xấp xỉ 0.825 > 0,05), điều này cho thấy rằng tỷ lệ rủi ro giữa nhóm “sỡ hữu thẻ loại A” và nhóm “sỡ hữu thẻ loại B” cho thấy không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.

5 Odd ratio - Tỷ lệ chênh

5.1 Biến “dealer” và “trade”: Đối tượng đại lý và việc trao đổi hàng hóa

epitab(d2, method = "oddsratio")
## $tab
##      
##       no        p0 yes   p1 oddsratio    lower    upper    p.value
##   no  57 0.5816327  17 0.34  1.000000       NA       NA         NA
##   yes 41 0.4183673  33 0.66  2.698709 1.327399 5.486692 0.00880077
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

Kết quả cho thấy tỷ lệ chênh (Odds Ratio) giữa hai nhóm “họ là không phải đại lý” và “Họ là đại lý” không bằng nhau. Tỷ lệ chênh cho nhóm “Họ là đại lý” là khoảng 1.698709 lần so với nhóm “Họ không phải đại lý”. Giá trị p-value là 0.00880077 (gần bằng 0) cho thấy sự khác biệt này là có ý nghĩa thống kê đáng kể.

5.2 Biến “good” và “trade”: Sỡ hữu thẻ và việc trao đổi hàng hóa

epitab(d3, method = "oddsratio")
## $tab
##    
##     no        p0 yes   p1 oddsratio     lower    upper   p.value
##   A 47 0.4795918  23 0.46  1.000000        NA       NA        NA
##   B 51 0.5204082  27 0.54  1.081841 0.5464923 2.141624 0.8630064
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

Kết quả cho thấy tỷ lệ chênh (odds ratio) giữa hai nhóm “sỡ hữu thẻ A” và “Sỡ hữu thẻ B” không bằng nhau. Tỷ lệ chênh cho nhóm “Sỡ hữu thẻ B” là khoảng 0.081841 lần so với nhóm “Sỡ hữu thẻ A”. Tuy nhiên, giá trị p-value (0.8630064) cho thấy sự khác biệt này không đáng kể thống kê, tức là không có đủ bằng chứng thống kê để kết luận rằng tỷ lệ rủi ro giữa hai nhóm khác nhau.

6 Thống kê suy diễn

6.1 Biến “dealer” và biến “trade”

Đầu tiên, kiếm kịnh xem biến “dealer” và biến “trade” có độc lập hay không?

  • H0: Biến dealer độc lập biến trade (Việc họ là đại lý hay không nó không ảnh hưởng đến việc trao đổi hàng hóa)

  • H1: Biến dealer phụ thuộc biến trade (Tức là họ có là đại lý hay không thì nó vẫn ảnh hưởng đến việc trao đổi hàng hóa)

chisq.test(d2)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  d2
## X-squared = 6.7959, df = 1, p-value = 0.009137

Kết quả cho thấy, p_value = 0,009 < 0,05 nên bác bỏ H0. Vậy có nghĩa là với mức ý nghĩa 5%, việc trao đổi thẻ phụ thuộc bởi các đối tượng có phải đại lý hay không.

6.2 Biến “good” và biến “trade”

Tiếp theo, kiếm kịnh xem biến “good” và biến “trade” có độc lập hay không?

  • H0: Biến good độc lập biến trade (Loại thẻ trao đổi không ảnh hưởng đến việc trao đổi hàng hóa)

  • H1: Biến good phụ thuộc biến trade (Loại thẻ trao đổi có ảnh hưởng đến việc trao đổi hàng hóa)

chisq.test(d3)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  d3
## X-squared = 0.0026774, df = 1, p-value = 0.9587

Kết quả cho thấy, p_value = 0,9587 > 0,05 nên chưa đủ cơ sở để bác bỏ H0. Vậy có nghĩa là với mức ý nghĩa 5%, việc trao đổi thẻ không phụ thuộc bởi các đối tượng nắm giữ thẻ loại A hoặc B.