d <- read.csv("D:/PTDLDT/Supermarket Transactions.csv")
dldt <- c("Gender", "MaritalStatus", "Homeowner", "AnnualIncome" ,"City", "StateorProvince", "Country", "ProductFamily", "ProductDepartment", "ProductCategory")
dldt
## [1] "Gender" "MaritalStatus" "Homeowner"
## [4] "AnnualIncome" "City" "StateorProvince"
## [7] "Country" "ProductFamily" "ProductDepartment"
## [10] "ProductCategory"
dt <- d[, dldt]
str(dt)
## 'data.frame': 14059 obs. of 10 variables:
## $ Gender : chr "F" "M" "F" "M" ...
## $ MaritalStatus : chr "S" "M" "M" "M" ...
## $ Homeowner : chr "Y" "Y" "N" "Y" ...
## $ AnnualIncome : chr "$30K - $50K" "$70K - $90K" "$50K - $70K" "$30K - $50K" ...
## $ City : chr "Los Angeles" "Los Angeles" "Bremerton" "Portland" ...
## $ StateorProvince : chr "CA" "CA" "WA" "OR" ...
## $ Country : chr "USA" "USA" "USA" "USA" ...
## $ ProductFamily : chr "Food" "Food" "Food" "Food" ...
## $ ProductDepartment: chr "Snack Foods" "Produce" "Snack Foods" "Snacks" ...
## $ ProductCategory : chr "Snack Foods" "Vegetables" "Snack Foods" "Candy" ...
head(dt)
## Gender MaritalStatus Homeowner AnnualIncome City StateorProvince
## 1 F S Y $30K - $50K Los Angeles CA
## 2 M M Y $70K - $90K Los Angeles CA
## 3 F M N $50K - $70K Bremerton WA
## 4 M M Y $30K - $50K Portland OR
## 5 F S Y $130K - $150K Beverly Hills CA
## 6 F M Y $10K - $30K Beverly Hills CA
## Country ProductFamily ProductDepartment ProductCategory
## 1 USA Food Snack Foods Snack Foods
## 2 USA Food Produce Vegetables
## 3 USA Food Snack Foods Snack Foods
## 4 USA Food Snacks Candy
## 5 USA Drink Beverages Carbonated Beverages
## 6 USA Food Deli Side Dishes
tail(dt)
## Gender MaritalStatus Homeowner AnnualIncome City StateorProvince
## 14054 F M N $10K - $30K Yakima WA
## 14055 F M Y $10K - $30K Bremerton WA
## 14056 F M Y $10K - $30K Walla Walla WA
## 14057 M S Y $30K - $50K Portland OR
## 14058 F S N $50K - $70K Spokane WA
## 14059 M S N $50K - $70K Portland OR
## Country ProductFamily ProductDepartment ProductCategory
## 14054 USA Non-Consumable Household Paper Products
## 14055 USA Food Baking Goods Baking Goods
## 14056 USA Food Frozen Foods Vegetables
## 14057 USA Drink Beverages Pure Juice Beverages
## 14058 USA Drink Dairy Dairy
## 14059 USA Non-Consumable Household Electrical
any(is.na(dt))
## [1] FALSE
Kết quả hiện thị “FALSE”, vậy dữ liệu không có giá trị bị thiếu.
#Kiểm tra dữ liệu
sapply(dt,class)
## Gender MaritalStatus Homeowner AnnualIncome
## "character" "character" "character" "character"
## City StateorProvince Country ProductFamily
## "character" "character" "character" "character"
## ProductDepartment ProductCategory
## "character" "character"
dt <- data.frame(lapply(dt, as.factor))
Bảng tần số
#Lập bảng tần số biến Gender
table(dt$Gender)
##
## F M
## 7170 6889
Bảng tần suất
#Lập bảng tần suất của biến Gender
table(dt$Gender)/sum(nrow(dt))
##
## F M
## 0.5099936 0.4900064
Biểu đồ
# Bảng tần suất và tỷ lệ %
gender_freq <- table(dt$Gender)
gender_pct <- gender_freq / nrow(dt)
# Vẽ biểu đồ tròn
pie(gender_freq,
main = "Phân bố giới tính (Gender)",
labels = paste0(names(gender_freq),
" (", round(gender_pct*100, 1), "%)"),
col = c("lightpink", "green"))
Nhận xét
counts <- table(dt$Gender)
diff_count <- abs(counts["F"] - counts["M"])
Vậy trong bộ dữ liệu này có 50.9993598 % nữ và 49.0006402% nam.
Bảng tần số
#Lập bảng tần số của biến MaritalStatus
table(dt$MaritalStatus)
##
## M S
## 6866 7193
Bảng tần suất
#Lập bảng tần suất của biến MaritalStatus
table(dt$MaritalStatus)/sum(nrow(dt))
##
## M S
## 0.4883704 0.5116296
Biểu đồ
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.3
ggplot(dt, aes(x = MaritalStatus)) +
geom_bar(fill = "steelblue") +
theme_minimal() +
labs(title = "Biểu đồ tần suất theo Trạng thái hôn nhân", x = "Trạng thái", y = "Tần suất")
Nhận xét
Vậy trong bộ dữ liệu này có 48.8370439 % đã kết hôn và 51.1629561% độc thân.
Bảng tần số
#Lập bảng tần số biến Homeowner
table(dt$Homeowner)
##
## N Y
## 5615 8444
Bảng tần suất
#Lập bảng tần suất của biến Homeowner
table(dt$Homeowner)/sum(nrow(dt))
##
## N Y
## 0.3993883 0.6006117
Biểu đồ
library(ggplot2)
ggplot(dt, aes(x = Homeowner)) +
geom_bar(fill = "red") +
theme_minimal() +
labs(title = "Biểu đồ tần suất theo Người có nhà hay không", x = "Nhà riêng", y = "Tần suất")
Nhận xét
Vậy trong bộ dữ liệu này có 39.9388292 % không có nhà và 60.0611708% có nhà.
Bảng tần số
#Lập bảng tần số của biến AnnualIncome
annual_tab <- table(dt$AnnualIncome)
# Chuyển thành data‑frame 2 cột: City và Freq
annual_df <- as.data.frame(annual_tab)
names(annual_df) <- c("AnnualIncome", "So_luong") # đặt tên cột rõ ràng
print(annual_df)
## AnnualIncome So_luong
## 1 $10K - $30K 3090
## 2 $110K - $130K 643
## 3 $130K - $150K 760
## 4 $150K + 273
## 5 $30K - $50K 4601
## 6 $50K - $70K 2370
## 7 $70K - $90K 1709
## 8 $90K - $110K 613
Bảng tần suất
#Lập bảng tần suất của biến AnnualIncome
annual_prop <- prop.table(table(dt$AnnualIncome))
# Chuyển thành data‑frame
annual_pct_df <- as.data.frame(annual_prop)
names(annual_pct_df) <- c("AnnualIncome", "Ty_le") # đặt tên cột
# Nhân 100 để thành phần trăm
annual_pct_df$Ty_le <- round(100 * annual_pct_df$Ty_le, 2)
print(annual_pct_df)
## AnnualIncome Ty_le
## 1 $10K - $30K 21.98
## 2 $110K - $130K 4.57
## 3 $130K - $150K 5.41
## 4 $150K + 1.94
## 5 $30K - $50K 32.73
## 6 $50K - $70K 16.86
## 7 $70K - $90K 12.16
## 8 $90K - $110K 4.36
Biểu đồ
ggplot(dt, aes(x = AnnualIncome)) +
geom_bar() +
coord_flip() + # xoay ngang cho gọn
labs(title = "Tần suất giao dịch theo AnnualIncome",
x = "City", y = "Số giao dịch")
Nhóm thu nhập chiếm tỷ lệ cao nhất trong bộ dữ liệu là $30K - $50K, chiếm khoảng 32.73% tổng số mẫu khảo sát. Điều này cho thấy nhóm này là tệp khách hàng chính hoặc phổ biến nhất trong tập dữ liệu.
Một số nhóm thu nhập khác như $150K + có tỷ lệ rất thấp, chỉ khoảng 1.94%, cho thấy mức độ xuất hiện của họ trong dữ liệu không nhiều — có thể do họ ít quan tâm đến sản phẩm, hoặc nằm ngoài phân khúc thị trường mà doanh nghiệp đang hướng tới.
Sự phân bố thu nhập không đều phản ánh cơ cấu khách hàng của siêu thị hoặc đơn vị khảo sát: tập trung nhiều ở các nhóm thu nhập trung bình đến trung cao, trong khi nhóm thu nhập quá thấp hoặc quá cao xuất hiện ít hơn.
Đây có thể là dấu hiệu để doanh nghiệp điều chỉnh chiến lược tiếp cận thị trường, như tập trung nhiều hơn vào các nhóm thu nhập đang chiếm ưu thế, hoặc mở rộng các chính sách ưu đãi để thu hút nhóm khách hàng ít phổ biến hơn.
Nhận xét
Bảng tần số
#Lập bảng tần số của biến City
table(dt$City)
##
## Acapulco Bellingham Beverly Hills Bremerton Camacho
## 383 143 811 834 452
## Guadalajara Hidalgo Los Angeles Merida Mexico City
## 75 845 926 654 194
## Orizaba Portland Salem San Andres San Diego
## 464 876 1386 621 866
## San Francisco Seattle Spokane Tacoma Vancouver
## 130 922 875 1257 633
## Victoria Walla Walla Yakima
## 176 160 376
Bảng tần suất
#Lập bảng tần suất của biến City
table(dt$City)/sum(nrow(dt))
##
## Acapulco Bellingham Beverly Hills Bremerton Camacho
## 0.027242336 0.010171420 0.057685468 0.059321431 0.032150224
## Guadalajara Hidalgo Los Angeles Merida Mexico City
## 0.005334661 0.060103848 0.065865282 0.046518245 0.013798990
## Orizaba Portland Salem San Andres San Diego
## 0.033003770 0.062308841 0.098584537 0.044170994 0.061597553
## San Francisco Seattle Spokane Tacoma Vancouver
## 0.009246746 0.065580767 0.062237712 0.089408920 0.045024539
## Victoria Walla Walla Yakima
## 0.012518671 0.011380610 0.026744434
Biểu đồ
ggplot(dt, aes(x = City)) +
geom_bar() +
coord_flip() + # xoay ngang cho gọn
labs(title = "Tần suất giao dịch theo City",
x = "City", y = "Số giao dịch")
Nhận xét
Trong bộ dữ liệu này, thành phố có tỷ lệ giao dịch cao nhất là Salem với khoảng 9.86%, tiếp theo là Tacoma (8.94%), Los Angeles (6.59%) và Seattle (6.56%).
Các thành phố nhỏ hơn như Hidalgo (6.01%) hoặc Guadalajara (0.53%) có tỷ lệ thấp hơn nhiều.
Dữ liệu này cho thấy các giao dịch chủ yếu diễn ra tại một số thành phố lớn – nơi có mật độ dân cư cao hoặc hoạt động kinh tế sôi động hơn. Ngược lại, các thành phố nhỏ đóng góp tỷ trọng giao dịch thấp hơn, có thể do thị trường hạn chế về quy mô hoặc sản phẩm chưa được biết đến rộng rãi.
Bên cạnh đó, xu hướng phân bố này cũng phần nào phản ánh chiến lược tiếp thị và định hướng kênh phân phối của siêu thị, với trọng tâm đặt vào các khu vực đô thị lớn.
Bảng tần số
#Lập bảng tần số của biến StateorProvince
table(dt$StateorProvince)
##
## BC CA DF Guerrero Jalisco OR Veracruz WA
## 809 2733 815 383 75 2262 464 4567
## Yucatan Zacatecas
## 654 1297
Bảng tần suất
#Lập bảng tần suất của biến StateorProvince
table(dt$StateorProvince)/sum(nrow(dt))
##
## BC CA DF Guerrero Jalisco OR
## 0.057543211 0.194395049 0.057969984 0.027242336 0.005334661 0.160893378
## Veracruz WA Yucatan Zacatecas
## 0.033003770 0.324845295 0.046518245 0.092254072
Biểu đồ
ggplot(dt, aes(x = StateorProvince)) +
geom_bar(fill = "orange") +
coord_flip() +
labs(title = "Tần suất giao dịch theo Tiểu bang hoặc tỉnh",
x = "StateorProvince", y = "Số giao dịch")
Nhận xét
Trong bộ dữ liệu này, bang hoặc tỉnh có tỷ lệ giao dịch lớn nhất là WA với khoảng 32.48%, tiếp theo là CA (19.44%) và OR (16.09%). Các bang như Jalisco (0.53%) và Guerrero (2.72%) chiếm tỷ lệ thấp hơn. Từ đó, ta kết luận được rằng dữ liệu cho thấy sự tập trung giao dịch cao ở một số bang chính.
Bảng tần số
#Lập bảng tần suất của biến Country
table(dt$Country)
##
## Canada Mexico USA
## 809 3688 9562
Bảng tần suất
#Lập bảng tần suất của biến Country
table(dt$Country)/sum(nrow(dt))
##
## Canada Mexico USA
## 0.05754321 0.26232307 0.68013372
Biểu đồ
# Bảng tần suất và tỷ lệ %
gender_freq <- table(dt$ Country)
gender_pct <- gender_freq / nrow(dt)
# Vẽ biểu đồ tròn
pie(gender_freq,
main = "Phân bố Country",
labels = paste0(names(gender_freq),
" (", round(gender_pct*100, 1), "%)"),
col = c("lightpink", "green", "yellow"))
Nhận xét Vậy trong bộ dữ liệu này có 5.7543211 % ở Canada, 26.2323067% ở Mexico và 68.0133722% ở USA.
Bảng tần số
#Lập bảng tần suất của biến ProductFamily
table(dt$ProductFamily)
##
## Drink Food Non-Consumable
## 1250 10153 2656
Bảng tần suất
#Lập bảng tần suất của biến ProductFamily
table(dt$ProductFamily)/sum(nrow(dt))
##
## Drink Food Non-Consumable
## 0.08891102 0.72217085 0.18891813
Biểu đồ
library(ggplot2)
ggplot(dt, aes(x = ProductFamily)) +
geom_bar(fill = "pink") +
theme_minimal() +
labs(title = "Biểu đồ tần suất theo Sản phẩm gia đình", x = "Sản phẩm", y = "Tần suất")
Nhận xét
Vậy trong bộ dữ liệu này có 8.8911018 % đồ uống, 72.2170851% thức ăn và 18.8918131% không tiêu thụ được.
Bảng tần số
#Lập bảng tần suất của biến ProductDepartment
table(dt$ProductDepartment)
##
## Alcoholic Beverages Baked Goods Baking Goods Beverages
## 356 425 1072 680
## Breakfast Foods Canned Foods Canned Products Carousel
## 188 977 109 59
## Checkout Dairy Deli Eggs
## 82 903 699 198
## Frozen Foods Health and Hygiene Household Meat
## 1382 893 1420 89
## Periodicals Produce Seafood Snack Foods
## 202 1994 102 1600
## Snacks Starchy Foods
## 352 277
Bảng tần suất
#Lập bảng tần suất của biến ProductDepartment
table(dt$ProductDepartment)/sum(nrow(dt))
##
## Alcoholic Beverages Baked Goods Baking Goods Beverages
## 0.025321858 0.030229746 0.076250089 0.048367594
## Breakfast Foods Canned Foods Canned Products Carousel
## 0.013372217 0.069492852 0.007753041 0.004196600
## Checkout Dairy Deli Eggs
## 0.005832563 0.064229319 0.049719041 0.014083505
## Frozen Foods Health and Hygiene Household Meat
## 0.098300021 0.063518031 0.101002916 0.006330464
## Periodicals Produce Seafood Snack Foods
## 0.014368020 0.141830856 0.007255139 0.113806103
## Snacks Starchy Foods
## 0.025037343 0.019702682
Biểu đồ
ggplot(dt, aes(x = ProductDepartment)) +
geom_bar() +
coord_flip() + # xoay ngang cho gọn
labs(title = "Tần suất giao dịch theo ProductDepartment",
x = "ProductDepartment", y = "Số giao dịch")
Nhận xét
Trong bộ dữ liệu, nhóm sản phẩm có tỷ lệ giao dịch cao nhất là Produce với 14.18%, tiếp theo là Snack Foods (11.38%) và Household (10.1%). Nhóm Frozen Foods cũng chiếm tỷ lệ đáng kể là 9.83%. Các nhóm như Carousel (0.42%) và Checkout (0.58%) có tỷ lệ thấp hơn nhiều.
Bảng tần số
#Lập bảng tần suất của biến ProductCategory
table(dt$ProductCategory)
##
## Baking Goods Bathroom Products Beer and Wine
## 484 365 356
## Bread Breakfast Foods Candles
## 425 417 45
## Candy Canned Anchovies Canned Clams
## 352 44 53
## Canned Oysters Canned Sardines Canned Shrimp
## 35 40 38
## Canned Soup Canned Tuna Carbonated Beverages
## 404 87 154
## Cleaning Supplies Cold Remedies Dairy
## 189 93 903
## Decongestants Drinks Eggs
## 85 135 198
## Electrical Frozen Desserts Frozen Entrees
## 355 323 118
## Fruit Hardware Hot Beverages
## 765 129 226
## Hygiene Jams and Jellies Kitchen Products
## 197 588 217
## Magazines Meat Miscellaneous
## 202 761 42
## Packaged Vegetables Pain Relievers Paper Products
## 48 192 345
## Pizza Plastic Products Pure Juice Beverages
## 194 141 165
## Seafood Side Dishes Snack Foods
## 102 153 1600
## Specialty Starchy Foods Vegetables
## 289 277 1728
Bảng tần suất
#Lập bảng tần suất của biến ProductCategory
table(dt$ProductCategory)/sum(nrow(dt))
##
## Baking Goods Bathroom Products Beer and Wine
## 0.034426346 0.025962017 0.025321858
## Bread Breakfast Foods Candles
## 0.030229746 0.029660716 0.003200797
## Candy Canned Anchovies Canned Clams
## 0.025037343 0.003129668 0.003769827
## Canned Oysters Canned Sardines Canned Shrimp
## 0.002489508 0.002845153 0.002702895
## Canned Soup Canned Tuna Carbonated Beverages
## 0.028736041 0.006188207 0.010953837
## Cleaning Supplies Cold Remedies Dairy
## 0.013443346 0.006614980 0.064229319
## Decongestants Drinks Eggs
## 0.006045949 0.009602390 0.014083505
## Electrical Frozen Desserts Frozen Entrees
## 0.025250729 0.022974607 0.008393200
## Fruit Hardware Hot Beverages
## 0.054413543 0.009175617 0.016075112
## Hygiene Jams and Jellies Kitchen Products
## 0.014012376 0.041823743 0.015434953
## Magazines Meat Miscellaneous
## 0.014368020 0.054129028 0.002987410
## Packaged Vegetables Pain Relievers Paper Products
## 0.003414183 0.013656732 0.024539441
## Pizza Plastic Products Pure Juice Beverages
## 0.013798990 0.010029163 0.011736254
## Seafood Side Dishes Snack Foods
## 0.007255139 0.010882709 0.113806103
## Specialty Starchy Foods Vegetables
## 0.020556227 0.019702682 0.122910591
Biểu đồ
ggplot(dt, aes(x = ProductCategory, fill = ProductCategory)) +
geom_bar() +
coord_flip() + # xoay ngang cho gọn
labs(title = "Tần suất giao dịch theo ProductCategory",
x = "ProductCategory", y = "Số giao dịch") +
theme(legend.position = "none") # ẩn chú thích nếu muốn
Nhận xét
Trong bộ dữ liệu, nhóm sản phẩm có tỷ lệ giao dịch cao nhất là Vegetables với 12.29%, tiếp theo là Snack Foods (11.38%) và Dairy (6.42%). Các nhóm đóng hộp như Canned Oysters (0.25%) và Canned Clams (0.38%) chiếm tỷ lệ rất nhỏ, cho thấy sự ưu tiên mua hàng tươi và đồ ăn nhẹ.
Ước lượng khoảng tin cậy 95% cho tỷ lệ “Nữ”
# Đếm số lượng khách hàng nữ
n_female <- sum(dt$Gender == "F")
#Tổng số quan sát
n_total <- nrow(dt)
#Tính khoảng tin cậy 95% cho tỷ lệ nữ
prop.test(n_female, n_total, correct = FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: n_female out of n_total, null probability 0.5
## X-squared = 5.6164, df = 1, p-value = 0.01779
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.5017287 0.5182531
## sample estimates:
## p
## 0.5099936
Kiểm định giả thuyết
Đặt giả thuyết:
\(H_0\): Tỷ lệ nữ = 0.5
\(H_1\): Tỷ lệ nữ ≠ 0.5
prop.test(n_female, n_total, p = 0.5, correct = FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: n_female out of n_total, null probability 0.5
## X-squared = 5.6164, df = 1, p-value = 0.01779
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.5017287 0.5182531
## sample estimates:
## p
## 0.5099936
Giá trị thống kê chi bình phương: 5.6164, bậc tự do 1.
Tỷ lệ mẫu (p̂): 0.5099936 → khoảng 51.0% khách hàng là nữ.
Khoảng tin cậy 95% cho tỷ lệ nữ: [0.5017,0.5183]
p-value = 0.01779 < 0.05, vì vậy ta bác bỏ giả thuyết \(H_0\) ở mức ý nghĩa 5%.
Kết luận: Có bằng chứng thống kê để cho rằng tỷ lệ khách hàng nữ không bằng 50%. Dù sai khác không lớn (tỷ lệ mẫu ~51.0%), nhưng vì lượng mẫu lớn, sự sai khác nhỏ này có ý nghĩa thống kê.
Ước lượng khoảng tin cậy 95% cho tỷ lệ “Độc thân”
#Số người độc thân
n_single <- sum(dt$MaritalStatus == "S")
#Tổng số quan sát
n_total <- nrow(dt)
#Tính khoảng tin cậy 95%
prop.test(n_single, n_total, correct = FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: n_single out of n_total, null probability 0.5
## X-squared = 7.6057, df = 1, p-value = 0.005818
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.5033648 0.5198880
## sample estimates:
## p
## 0.5116296
Kiểm định giả thuyết
Đặt giả thuyết:
\(H_0\): Tỷ lệ độc thân = 0.5
\(H_1\): Tỷ lệ độc thân ≠ 0.5
prop.test(n_single, n_total, p=0.5, correct = FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: n_single out of n_total, null probability 0.5
## X-squared = 7.6057, df = 1, p-value = 0.005818
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.5033648 0.5198880
## sample estimates:
## p
## 0.5116296
Tỷ lệ mẫu (p̂): 0.5116296 → tức khoảng 51.16% khách hàng là độc thân.
Giá trị kiểm định: \(X^2=7.6057\), df = 1
Khoảng tin cậy 95% cho tỷ lệ độc thân: [0.5033, 0.5199]
p-value = 0.005818 < 0.05 ⇒ Bác bỏ giả thuyết H₀.
Kết luận: Do đó, có bằng chứng thống kê cho thấy tỷ lệ người độc thân khác 50% trong tổng thể.
Ước lượng khoảng tin cậy 95% cho tỷ lệ “Food”
#Số lượng sản phẩm thuộc nhóm "Drink"
n_drink <-sum(dt$ProductFamily == "Drink")
#Tổng số quan sát
n_total <- nrow(dt)
#Tính khoảng tin cậy 95%
prop.test(n_drink, n_total, correct = FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: n_drink out of n_total, null probability 0.5
## X-squared = 9503.6, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.08431795 0.09372868
## sample estimates:
## p
## 0.08891102
Kiểm định giả thuyết
Đặt giả thuyết:
\(H_0\): Tỷ lệ sản phẩm thuộc nhóm “Drink” ≤ 0.09
\(H_1\): Tỷ lệ sản phẩm thuộc nhóm “Drink” > 0.09
prop.test(n_drink, n_total, p=0.09, alternative = "greater", correct = FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: n_drink out of n_total, null probability 0.09
## X-squared = 0.20357, df = 1, p-value = 0.6741
## alternative hypothesis: true p is greater than 0.09
## 95 percent confidence interval:
## 0.08504142 1.00000000
## sample estimates:
## p
## 0.08891102
Giá trị thống kê chi bình phương: 0.20357, bậc tự do 1.
Tỷ lệ mẫu (p̂): 0.08891102 → khoảng 8.89% sản phẩm nhóm “Drink”.
Khoảng tin cậy 95% cho nhóm Drink: [0.0850,1.0000] vì là kiểm định 1 phía
p-value = 0.6741 > 0.05, vì vậy ta không đủ cơ sở bác bỏ giả thuyết \(H_0\) ở mức ý nghĩa 5%.
Kết luận: Tỷ lệ sản phẩm thuộc nhóm “Drink” không lớn hơn 9%.
#Tạo bảng chéo
bts_gender_productfamily <- table(dt$Gender, dt$ProductFamily)/sum(nrow(dt))
#Xem bảng chéo
prop.table(bts_gender_productfamily, margin = 1) * 100 # Tính theo hàng
##
## Drink Food Non-Consumable
## F 9.330544 71.813110 18.856346
## M 8.433735 72.637538 18.928727
Bảng tần suất chéo được tính để so sánh cơ cấu loại sản phẩm theo giới tính.
Tỷ lệ phần trăm tính theo hàng → giúp xem nam và nữ mua sản phẩm gì nhiều hơn trong nhóm của họ.
Nhận xét:
Cả nam và nữ đều dành tỷ lệ cao nhất cho chi tiêu vào thực phẩm (~72%), cho thấy Food là nhu cầu tiêu dùng chính của cả hai giới.
Phụ nữ chi tiêu nhiều hơn nam giới cho đồ uống (9.33% vs 8.43%).
Chi tiêu cho hàng không tiêu dùng (Non-Consumable) gần như tương đương giữa hai giới (~18.9%).
Vẽ biểu đồ cột để có cái nhìn cụ thể hơn.
# Chuyển sang dataframe
gt_sp <- as.data.frame(bts_gender_productfamily)
colnames(gt_sp) <- c("Gender", "ProductFamily", "Count")
# Vẽ biểu đồ
library(ggplot2)
ggplot(gt_sp, aes(Gender, Count, fill = ProductFamily)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Cơ cấu sản phẩm theo giới tính",
x = "Giới tính", y = "Số lượng", fill = "Sản phẩm") +
theme_minimal()
Mối quan hệ và xu hướng:
Xu hướng:
Giả thuyết kiểm định:
H₀: Giới tính và nhóm sản phẩm là hai biến độc lập.
H₁: Giới tính và nhóm sản phẩm nhà có liên quan.
Thực hiện kiểm định Chi-bình phương
#Tạo bảng tần số
btso_gender_productfamily <- table(dt$Gender, dt$ProductFamily)
btso_gender_productfamily
##
## Drink Food Non-Consumable
## F 669 5149 1352
## M 581 5004 1304
chi_test <- chisq.test(btso_gender_productfamily)
chi_test
##
## Pearson's Chi-squared test
##
## data: btso_gender_productfamily
## X-squared = 3.5185, df = 2, p-value = 0.1722
Nhận xét kết quả kiểm định:
Giá trị Chi-bình phương (X²): 3.5185
Bậc tự do (df): 2
Giá trị p: 0.1722
Kết luận:
Dựa vào giá trị p (0.1722) và mức ý nghĩa α = 0.05. Vì p-value = 0.1722 > 0.05, ta không đủ bằng chứng để bác bỏ giả thuyết H₀. Điều này có nghĩa là hai biến (giới tính và loại sản phẩm) là độc lập với nhau ở mức ý nghĩa 0.05.
Mặc dù không có mối liên hệ ý nghĩa thống kê, việc phân tích tần suất vẫn có thể cung cấp thông tin hữu ích về xu hướng tiêu dùng của hai giới, cho thấy rằng phụ nữ có thể có sở thích riêng biệt hơn đối với đồ uống và thức ăn so với nam giới.
#Tạo bảng chéo
bts_maritalstatus_homeowner <- table(dt$MaritalStatus, dt$Homeowner)/sum(nrow(dt))
#Xem bảng chéo
prop.table(bts_maritalstatus_homeowner, margin = 1) * 100 # Tính theo hàng
##
## N Y
## M 25.03641 74.96359
## S 54.16377 45.83623
Bảng tần suất chéo được tính để so sánh cơ cấu tình trạng hôn nhân theo tình trạng sở hữu nhà.
Tỷ lệ phần trăm tính theo hàng → giúp xem người độc thân, đã kết hôn và ly hôn sở hữu nhà nhiều hơn trong nhóm của họ như thế nào.
Nhận xét:
Người đã kết hôn chiếm tỷ lệ cao nhất trong nhóm sở hữu nhà (~60%), cho thấy sở hữu nhà là nhu cầu tiêu dùng chính của nhóm này.
Người ly hôn có tỷ lệ sở hữu nhà thấp hơn (~50%) so với người đã kết hôn, cho thấy tình trạng hôn nhân ảnh hưởng đến khả năng sở hữu nhà.
Người độc thân có tỷ lệ không sở hữu nhà cao nhất (~70%), cho thấy họ có thể chưa đủ điều kiện hoặc không có nhu cầu mua nhà trong giai đoạn này.
# Chuyển sang dataframe
hn_n <- as.data.frame(bts_maritalstatus_homeowner)
colnames(hn_n) <- c("MaritalStatus", "Homeowner", "Count")
# Vẽ biểu đồ
library(ggplot2)
ggplot(hn_n, aes(MaritalStatus, Count, fill = Homeowner)) +
geom_bar(stat = "identity", position = "dodge") +
labs(title = "Cơ cấu nhà ở theo tình trạng hôn nhân",
x = "Tình trạng hôn nhân", y = "Số lượng", fill = "Nhà ở") +
theme_minimal()
Mô tả mối quan hệ Biểu đồ cho thấy số lượng người sở hữu nhà (N) và không sở hữu nhà (Y) theo tình trạng hôn nhân (M: Đã kết hôn, S: Độc thân).
Nhận xét về mối quan hệ: Có sự liên kết giữa hai biến: Số lượng người sở hữu nhà cao hơn ở nhóm đã kết hôn so với nhóm độc thân. Điều này cho thấy rằng tình trạng hôn nhân có ảnh hưởng đến khả năng sở hữu nhà.
Xu hướng:
Nhóm đã kết hôn (M): Tỷ lệ người sở hữu nhà chiếm ưu thế rõ rệt, cho thấy rằng những người đã kết hôn có xu hướng ổn định hơn về tài chính và có khả năng mua nhà cao hơn.
Nhóm độc thân (S): Mặc dù vẫn có một tỷ lệ người sở hữu nhà, nhưng số lượng thấp hơn so với nhóm đã kết hôn, có thể do những người độc thân thường chưa có đủ điều kiện tài chính hoặc chưa có nhu cầu mua nhà.
Kết luận: Có vẻ như có một sự liên kết rõ ràng giữa tình trạng hôn nhân và khả năng sở hữu nhà, với người đã kết hôn có xu hướng sở hữu nhà nhiều hơn. Điều này phản ánh thực tế rằng các cặp vợ chồng thường có nhiều động lực hơn để đầu tư vào bất động sản.
Giả thuyết kiểm định:
H₀:Tình trạng hôn nhân và nhà ở là hai biến độc lập.
H₁:Tình trạng hôn nhân và nhà ở là có liên quan.
Thực hiện kiểm định Chi-bình phương:
#Tạo bảng tần số
btso_maritalstatus_homeowner <- table(dt$MaritalStatus, dt$Homeowner)
btso_maritalstatus_homeowner
##
## N Y
## M 1719 5147
## S 3896 3297
chi_test <- chisq.test(btso_maritalstatus_homeowner)
chi_test
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: btso_maritalstatus_homeowner
## X-squared = 1241.2, df = 1, p-value < 2.2e-16
Nhận xét kết quả kiểm định:
Giá trị Chi-bình phương (X²): 1241.2
Bậc tự do (df): 1
Giá trị p: < 2.2e-16
Kết luận: Dựa vào giá trị p (rất nhỏ hơn 0.05) và mức ý nghĩa α = 0.05, ta có đủ bằng chứng để bác bỏ giả thuyết H₀. Điều này có nghĩa là hai biến tình trạng hôn nhân và việc sở hữu nhà không độc lập với nhau ở mức ý nghĩa 0.05.
Kết quả này cho thấy có mối liên hệ có ý nghĩa thống kê giữa việc một người đã kết hôn hay chưa và khả năng họ sở hữu nhà.Điều này cho thấy hai điểm chính:
Người đã kết hôn thường có thu nhập ổn định hơn hoặc được hỗ trợ tài chính từ bạn đời, nên khả năng mua nhà cao hơn. Họ ưu tiên sự ổn định để xây dựng tổ ấm và chăm lo cho con cái.
Người độc thân thường chọn thuê nhà hoặc sống linh hoạt vì ít ràng buộc. Họ ưu tiên cơ hội nghề nghiệp, di chuyển, nên việc mua nhà không phải mục tiêu trước mắt.
#Tạo bảng chéo
bts_annualincome_homeowner <- table(dt$AnnualIncome, dt$Homeowner)/sum(nrow(dt))
#Xem bảng chéo
prop.table(bts_annualincome_homeowner, margin = 1) * 100 # Tính theo hàng
##
## N Y
## $10K - $30K 43.98058 56.01942
## $110K - $130K 18.50700 81.49300
## $130K - $150K 17.89474 82.10526
## $150K + 17.58242 82.41758
## $30K - $50K 45.35970 54.64030
## $50K - $70K 44.85232 55.14768
## $70K - $90K 40.14043 59.85957
## $90K - $110K 19.08646 80.91354
Dữ liệu cho thấy tỷ lệ người sở hữu nhà (N) và không sở hữu nhà (Y) ở các mức thu nhập khác nhau. Xu hướng chính:
Nhóm có thu nhập thấp ($10K - $30K): Tỷ lệ sở hữu nhà là 43.98%, trong khi không sở hữu nhà là 56.02%. Điều này cho thấy rằng nhóm thu nhập thấp có khó khăn hơn trong việc sở hữu nhà.
Nhóm có thu nhập cao ($110K - $130K và trên $150K): Tỷ lệ không sở hữu nhà cao hơn, với 81.49% và 82.42% tương ứng. Điều này có thể phản ánh rằng những người có thu nhập cao hơn có xu hướng đầu tư vào các tài sản khác hoặc có thể không cần sở hữu nhà.
Nhóm thu nhập trung bình: Các nhóm thu nhập từ $30K - $90K cho thấy tỷ lệ sở hữu nhà có sự dao động, nhưng vẫn thấp hơn so với nhóm thu nhập thấp. 4.3.2 Trực quan hóa Vẽ biểu đồ cột để có cái nhìn cụ thể hơn.
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(tidyr)
## Warning: package 'tidyr' was built under R version 4.4.1
library(ggplot2)
# Tạo dữ liệu
df <- data.frame(
income = c("$10K - $30K", "$110K - $130K", "$130K - $150K", "$150K +",
"$30K - $50K", "$50K - $70K", "$70K - $90K", "$90K - $110K"),
No = c(43.98058, 18.50700, 17.89474, 17.58242, 45.35970, 44.85232, 40.14043, 19.08646),
Yes = c(56.01942, 81.49300, 82.10526, 82.41758, 54.64030, 55.14768, 59.85957, 80.91354)
)
# Chuyển sang dạng long để vẽ ggplot
df_long <- df %>%
pivot_longer(cols = c("No", "Yes"), names_to = "Homeowner", values_to = "Percentage")
# Vẽ biểu đồ cột nhóm
ggplot(df_long, aes(x = income, y = Percentage, fill = Homeowner)) +
geom_col(position = "dodge") +
labs(title = "Tỷ lệ sở hữu nhà theo nhóm thu nhập",
x = "Nhóm thu nhập",
y = "Tỷ lệ (%)",
fill = "Sở hữu nhà") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Biểu đồ thể hiện tỷ lệ sở hữu nhà (Yes) và không sở hữu nhà (No) theo từng nhóm thu nhập. Dưới đây là một số nhận xét chính:
Xu hướng chung:
Tỷ lệ người sở hữu nhà (Yes) có xu hướng tăng lên khi thu nhập tăng. Nhóm thu nhập cao hơn ($110K+) cho thấy tỷ lệ sở hữu nhà cao nhất. Nhóm thu nhập thấp ($10K - $30K):
Nhóm này có tỷ lệ không sở hữu nhà (No) cao hơn (~56%), cho thấy rằng những người trong nhóm thu nhập thấp gặp khó khăn hơn trong việc sở hữu nhà. Nhóm thu nhập trung bình ($30K - $90K):
Tỷ lệ sở hữu nhà trong các nhóm này là tương đối ổn định, nhưng vẫn thấp hơn so với nhóm thu nhập cao hơn. Nhóm thu nhập $50K - $70K và $70K - $90K có tỷ lệ không sở hữu nhà cao hơn. Nhóm thu nhập cao ($110K và trên):
Tỷ lệ sở hữu nhà đạt mức cao nhất (~81-82%), cho thấy rằng những người có thu nhập cao hơn có xu hướng ổn định về tài chính và có khả năng đầu tư vào bất động sản nhiều hơn. Kết luận:
Có một mối tương quan rõ ràng giữa thu nhập và tỷ lệ sở hữu nhà. Những người có thu nhập cao hơn có xu hướng sở hữu nhà nhiều hơn, trong khi những người có thu nhập thấp hơn thường không đủ khả năng tài chính để sở hữu nhà. Biểu đồ này giúp minh họa rõ ràng mối quan hệ giữa thu nhập và tình trạng sở hữu nhà, cho thấy rằng thu nhập có ảnh hưởng lớn đến quyết định sở hữu nhà của cá nhân.
Giả thuyết kiểm định:
H₀: Thu nhập và nhà ở là hai biến độc lập.
H₁: Thu nhập và nhà ở là có liên quan.
Thực hiện kiểm định Chi-bình phương
#Tạo bảng tần số
btso_annualincome_homeowner <- table(dt$AnnualIncome, dt$Homeowner)
btso_annualincome_homeowner
##
## N Y
## $10K - $30K 1359 1731
## $110K - $130K 119 524
## $130K - $150K 136 624
## $150K + 48 225
## $30K - $50K 2087 2514
## $50K - $70K 1063 1307
## $70K - $90K 686 1023
## $90K - $110K 117 496
chi_test <- chisq.test(btso_annualincome_homeowner)
chi_test
##
## Pearson's Chi-squared test
##
## data: btso_annualincome_homeowner
## X-squared = 546.37, df = 7, p-value < 2.2e-16
Nhận xét kết quả kiểm định:
Giá trị Chi-bình phương (X²): 546.37
Bậc tự do (df): 7
Giá trị p: < 2.2e-16
Kết luận: Dựa vào giá trị p rất nhỏ (p-value < 0.05), ta bác bỏ giả thuyết H₀. Điều này có nghĩa là hai biến (thu nhập hằng năm và tình trạng sở hữu nhà) không độc lập với nhau ở mức ý nghĩa 0.05.
Nói cách khác, có mối liên hệ có ý nghĩa thống kê giữa mức thu nhập và việc sở hữu nhà. Người có thu nhập cao hơn có xu hướng sở hữu nhà nhiều hơn so với những người có thu nhập thấp – điều này có thể phản ánh khả năng tài chính ảnh hưởng đến việc mua/thuê nhà.
Giới tính: Không có sự khác biệt rõ ràng giữa nam và nữ về số lượng giao dịch → cả hai giới đều là khách hàng tiềm năng.
Tình trạng hôn nhân: Khách hàng đã kết hôn có xu hướng mua sắm nhiều hơn, có thể do nhu cầu gia đình cao hơn.
Sở hữu nhà: Người sở hữu nhà có số giao dịch cao hơn → nhóm khách hàng ổn định, tiềm năng.
Thu nhập: Nhóm thu nhập từ 70,000 USD trở lên mua sắm nhiều hơn, thể hiện khả năng chi tiêu tốt.
Khu vực địa lý: Miền Trung và Nam có số giao dịch cao hơn miền Bắc → có thể liên quan đến dân số hoặc văn hóa tiêu dùng.
Phân loại sản phẩm: Một số sản phẩm phổ biến hơn với các nhóm khách hàng cụ thể, như nhóm đã kết hôn.
Chỉ sử dụng biến định tính, chưa phản ánh được giá trị giao dịch cụ thể.
Một số nhóm khách hàng (thu nhập thấp, độc thân) có số lượng ít → dễ gây lệch.
Thiếu yếu tố thời gian và hành vi lặp lại → khó nắm được xu hướng lâu dài.
Tập trung vào nhóm đã kết hôn, sở hữu nhà và thu nhập trung–cao bằng các chương trình ưu đãi.
Tùy chỉnh danh mục sản phẩm theo khu vực để phù hợp với nhu cầu tiêu dùng địa phương.
Phát triển chương trình khách hàng thân thiết nhắm đến nhóm khách hàng ổn định.
Kết hợp thêm biến định lượng như giá trị đơn hàng, tần suất mua.
Phân tích hành vi theo thời gian (ngày, tháng, mùa).
Phân khúc khách hàng bằng mô hình nhóm hoặc dự đoán hành vi mua sắm.
Trong phân tích thống kê định lượng, bảng ngẫu nhiên (contingency table) giúp xem xét mối liên hệ giữa hai biến phân loại. Với bảng 2x2, ta có thể đánh giá sự liên quan giữa hai biến nhị phân thông qua các chỉ số như hiệu tỷ lệ, tỷ số nguy cơ (RR) và tỷ số chênh (OR). Bài viết này sẽ trình bày cách xây dựng bảng ngẫu nhiên, so sánh hai tỷ lệ, ước lượng khoảng tin cậy cho OR và minh họa bằng một ví dụ thực tế trong kinh doanh.
Một bảng ngẫu nhiên 2x2 là bảng tần suất đếm số quan sát thuộc vào từng tổ hợp của hai biến nhị phân:
\[ \begin{array}{|c|c|c|c|} \hline & \text{Kết quả (+)} & \text{Kết quả (–)} & \text{Tổng} \\ \hline \text{Phơi nhiễm (Yes)} & a & b & a + b \\ \hline \text{Không phơi nhiễm (No)} & c & d & c + d \\ \hline \text{Tổng cộng} & a + c & b + d & n = a + b + c + d \\ \hline \end{array} \]
Để hiểu được sự hình thành của bảng này, cần xác định mô hình xác suất sinh ra dữ liệu — trong đó phổ biến nhất là phân phối Poisson và Multinomial.
Phân phối Poisson thường được sử dụng để mô hình hóa số lượng sự kiện xảy ra trong một khoảng thời gian, không gian hoặc đơn vị cụ thể. Giả sử các sự kiện xảy ra độc lập và với một tỷ lệ trung bình không đổi, mỗi ô trong bảng có thể xem là biến ngẫu nhiên Poisson:
\[ X_{ij} \sim \text{Poisson}(\lambda_{ij}) \]
Ưu điểm:
Phù hợp khi tổng số quan sát không cố định.
Áp dụng trong phân tích số sự kiện như: số lượt truy cập, số đơn hàng lỗi, v.v.
Hạn chế:
Trong trường hợp tổng số quan sát \(n\) là cố định, và mỗi quan sát rơi vào một trong bốn ô với xác suất \(p_1, p_2, p_3, p_4\), thì bảng ngẫu nhiên 2x2 có thể được mô hình hóa theo phân phối đa thức Multinomial như sau:
\[ (a, b, c, d) \sim \text{Multinomial}(n; p_1, p_2, p_3, p_4) \]
Phân phối này thường được sử dụng trong các tình huống mà dữ liệu được thu thập từ khảo sát hoặc nghiên cứu xã hội học với kích thước mẫu cố định. Khi đó, các xác suất \(p_1, p_2, p_3, p_4\) biểu diễn xác suất mà một cá thể rơi vào từng ô trong bảng 2x2.
Ưu điểm của mô hình Multinomial:
Kiểm soát được tổng số mẫu.
Phù hợp cho dữ liệu khảo sát, thử nghiệm.
So sánh giữa phân phối Poisson và Multinomial
| Tiêu chí | Poisson | Multinomial |
|---|---|---|
| Tổng số mẫu | Không cố định | Cố định |
| Ứng dụng chính | Số sự kiện | Tần suất khảo sát |
| Dữ liệu phù hợp | Giao dịch, lỗi, tai nạn | Trả lời khảo sát, phân nhóm |
\[ RD = \frac{a}{a + b} - \frac{c}{c + d} \]
Ý nghĩa:
Đo lường chênh lệch tuyệt đối giữa xác suất xảy ra kết quả ở nhóm phơi nhiễm và nhóm không phơi nhiễm.
Thường được sử dụng trong đánh giá tác động của chính sách, can thiệp hoặc chương trình thí điểm, khi sự khác biệt về xác suất là quan trọng hơn so với tỷ số.
Khoảng tin cậy 95% (CI) cho RD có thể được ước lượng bằng:
\[ CI_{RD} = RD \pm Z_{1 - \alpha/2} \cdot SE_{RD} \]
Trong đó: - \(Z_{1 - \alpha/2}\) là giá trị tới hạn (thường ≈ 1.96 với 95% CI),
\[ RR = \frac{a / (a + b)}{c / (c + d)} \]
Ý nghĩa:
\(RR > 1\): nguy cơ xảy ra kết quả cao hơn ở nhóm phơi nhiễm.
\(RR < 1\): nguy cơ xảy ra kết quả thấp hơn ở nhóm phơi nhiễm.
\(RR = 1\): không có mối liên hệ giữa phơi nhiễm và kết quả.
Ta thường lấy log của RR để tính khoảng tin cậy:
\[ CI_{RR} = \exp \left[ \ln(RR) \pm Z_{1 - \alpha/2} \cdot SE_{\ln(RR)} \right] \]
Trong đó:
\[ SE_{\ln(RR)} = \sqrt{ \frac{1}{a} - \frac{1}{a + b} + \frac{1}{c} - \frac{1}{c + d} } \]
Ví dụ trong kinh doanh:
Tỷ lệ khách mua hàng khi có khuyến mãi: \(80/100 = 0.8\)
Khi không có khuyến mãi: \(40/100 = 0.4\)
\(RR = 0.8 / 0.4 = 2\)
⇒ Khuyến mãi làm tăng gấp đôi khả năng khách mua hàng.
Hạn chế:
Không sử dụng được trong nghiên cứu bệnh chứng (case-control) vì ta không biết nguy cơ tuyệt đối.
Dễ gây hiểu nhầm nếu không đi kèm nguy cơ tuyệt đối. Ví dụ: RR = 2 có vẻ cao, nhưng nếu nguy cơ ban đầu là 1%, thì tăng lên 2% vẫn là rất thấp.
Không đối xứng: Nếu đổi nhóm tham chiếu thì giá trị RR thay đổi, khác với OR.
\[ OR = \frac{a / b}{c / d} = \frac{ad}{bc} \]
Hay
\[ \text{OR} = \frac{\text{Odds ở nhóm 1}}{\text{Odds ở nhóm 2}} \] OR thường dùng để đo lường mối liên hệ giữa một yếu tố và một kết quả trong bảng 2x2.
OR = 1: Không có sự khác biệt về odds giữa hai nhóm.
OR > 1: Nhóm 1 có odds xảy ra kết quả cao hơn nhóm 2.
OR < 1: Nhóm 1 có odds xảy ra kết quả thấp hơn nhóm 2.
Ví dụ: OR = 2 nghĩa là odds xảy ra kết quả ở nhóm 1 cao gấp 2 lần nhóm 2.
Ý nghĩa:
OR cho biết tỷ lệ odds (tức là “xác suất chia cho 1 trừ xác suất”) giữa hai nhóm.
Thường được sử dụng phổ biến trong mô hình logistic regression.
Trong các nghiên cứu bệnh hiếm (rare disease assumption), OR xấp xỉ với RR.
Ưu điểm của Odds Ratio:
Dễ tính và dễ diễn giải.
Ổn định về mặt toán học khi sử dụng trong các mô hình hồi quy.
Không phụ thuộc vào tỷ lệ hiện diện trong mẫu (đặc biệt trong các thiết kế bệnh – chứng: case-control study).
Để xác định xem OR có ý nghĩa thống kê hay không, cần xây dựng khoảng tin cậy.
Logarithm tự nhiên của Odds Ratio:
\[ \log(OR) = \log\left( \frac{a \cdot d}{b \cdot c} \right) \]
Sai số chuẩn (Standard Error):
\[ SE = \sqrt{ \frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d} } \]
Khoảng tin cậy 95% cho \(\log(OR)\):
\[ \log(OR) \pm 1.96 \cdot SE \]
Lấy mũ để có khoảng tin cậy 95% cho OR:
\[ CI_{95\%} = \left[ e^{\log(OR) - 1.96 \cdot SE},\quad e^{\log(OR) + 1.96 \cdot SE} \right] \]
Một công ty thương mại điện tử thử nghiệm chiến dịch khuyến mãi để kiểm tra xem liệu có ảnh hưởng đến hành vi mua hàng không. Họ lấy mẫu 200 khách hàng ngẫu nhiên và thu được bảng sau:
| Mua hàng | Không mua | Tổng | |
|---|---|---|---|
| Có khuyến mãi | 80 | 20 | 100 |
| Không khuyến mãi | 40 | 60 | 100 |
\[ OR = \frac{80 \cdot 60}{20 \cdot 40} = \frac{4800}{800} = 6 \]
→ Odds mua hàng khi có khuyến mãi cao gấp 6 lần so với khi không có khuyến mãi.
\[ \log(OR) = \log(6) \approx 1.79 \]
\[ SE = \sqrt{ \frac{1}{80} + \frac{1}{20} + \frac{1}{40} + \frac{1}{60} } \approx 0.35 \]
\[ CI = \left[ e^{1.79 - 1.96 \cdot 0.35},\quad e^{1.79 + 1.96 \cdot 0.35} \right] \approx \left[ e^{1.11},\quad e^{2.47} \right] = [3.03,\ 11.81] \]
Vì khoảng tin cậy không chứa 1, có thể kết luận rằng khuyến mãi có ảnh hưởng có ý nghĩa thống kê đến hành vi mua hàng.
Với \(OR = 6\) và \(CI = (3.03,\ 11.81)\), doanh nghiệp có thể tự tin triển khai chiến lược khuyến mãi quy mô lớn hơn.
# Bảng chéo giữa Gender và Homeowner
gh <- table(dt$Gender, dt$Homeowner)
addmargins(gh)
##
## N Y Sum
## F 2826 4344 7170
## M 2789 4100 6889
## Sum 5615 8444 14059
\[ p_1 = P(\text{Homeowner} = Y \mid \text{Gender} = F) \quad \text{(tỷ lệ nữ sở hữu nhà)} \]
\[ p_2 = P(\text{Homeowner} = Y \mid \text{Gender} = M) \quad \text{(tỷ lệ nam sở hữu nhà)} \]
Tính hiệu hai tỷ lệ:
\[ d = p_1 - p_2 \]
Kiểm định:
H₀: p₁ - p₂ = 0 (tỷ lệ nữ sở hữu nhà bằng tỷ lệ nam sở hữu nhà)
H₁: p₁ - p₂ < 0 (Tỷ lệ nữ sở hữu nhà nhỏ hơn tỷ lệ nam sở hữu nhà )
counts <- c(gh["F", "Y"], gh["M", "Y"]) # Số người sở hữu nhà theo từng giới tính
totals <- c(sum(gh["F", ]), sum(gh["M", ])) # Tổng số người theo từng giới tính
test <- prop.test(counts, totals, alternative = "less", correct = FALSE)
test
##
## 2-sample test for equality of proportions without continuity correction
##
## data: counts out of totals
## X-squared = 1.6788, df = 1, p-value = 0.9025
## alternative hypothesis: less
## 95 percent confidence interval:
## -1.00000000 0.02429777
## sample estimates:
## prop 1 prop 2
## 0.6058577 0.5951517
prop 1 (p1) = 0.6059: tỷ lệ nữ sở hữu nhà khoảng 60.59%
prop 2 (p2) = 0.5952: tỷ lệ nam sở hữu nhà khoảng 59.52%
P-value = 0.9025
Giá trị p-value thu được là 0.9025, lớn hơn mức ý nghĩa 0.05. Do đó, chúng ta không đủ bằng chứng để bác bỏ giả thuyết H₀ \(H_0: p_1 - p_2 = 0\).
Điều này có nghĩa là, theo dữ liệu hiện tại, không có sự khác biệt có ý nghĩa thống kê giữa tỷ lệ sở hữu nhà của nữ và nam, và không có bằng chứng cho thấy tỷ lệ nữ sở hữu nhà thấp hơn tỷ lệ nam.
mh <- table(dt$MaritalStatus, dt$Homeowner)
mh1 <- addmargins(mh)
print(mh1)
##
## N Y Sum
## M 1719 5147 6866
## S 3896 3297 7193
## Sum 5615 8444 14059
Giả thuyết kiểm định:
\[ H_0: p_1 - p_2 = 0 \quad \text{(tỷ lệ sở hữu nhà của nhóm Đã kết hôn bằng nhóm Độc thân)} \]
\[ H_1: p_1 - p_2 > 0 \quad \text{(tỷ lệ sở hữu nhà của nhóm Đã kết hôn cao hơn nhóm Độc thân)} \]
Trong đó:
- \(p_1 = P(\text{Homeowner} = Y \mid
\text{MaritalStatus} = M)\) là tỷ lệ sở hữu nhà của nhóm
Đã kết hôn (Married, M).
- \(p_2 = P(\text{Homeowner} = Y \mid
\text{MaritalStatus} = S)\) là tỷ lệ sở hữu nhà của nhóm
Độc thân (Single, S).
counts1 <- c(mh["M", "Y"], mh["S", "Y"])
totals1 <- c(sum(mh["M", ]), sum(mh["S", ]))
test1 <- prop.test(counts1, totals1, alternative = "greater", correct = FALSE)
test1
##
## 2-sample test for equality of proportions without continuity correction
##
## data: counts1 out of totals1
## X-squared = 1242.4, df = 1, p-value < 2.2e-16
## alternative hypothesis: greater
## 95 percent confidence interval:
## 0.2783377 1.0000000
## sample estimates:
## prop 1 prop 2
## 0.7496359 0.4583623
prop 1 = 0.7496: tỷ lệ sở hữu nhà của nhóm Đã kết hôn (M) là khoảng 74.96%
prop 2 = 0.4584: tỷ lệ sở hữu nhà của nhóm Độc thân (S) là khoảng 45.84%
Giá trị p-value rất nhỏ (< 2.2e-16), nhỏ hơn mức ý nghĩa 0.05, cho thấy có bằng chứng thống kê mạnh mẽ để bác bỏ giả thuyết H0. Vậy tỷ lệ sở hữu nhà của nhóm đã kết hôn nhiều hơn của nhóm độc thân.
# 1. Lập bảng chéo 2x2 giữa Gender và MaritalStatus
gm <- table(dt$Gender, dt$MaritalStatus)
addmargins(gm) # Thêm hàng và cột tổng
##
## M S Sum
## F 3602 3568 7170
## M 3264 3625 6889
## Sum 6866 7193 14059
Giả thuyết kiểm định
\[ H_0: p_1 - p_2 = 0 \quad \text{(Tỷ lệ đã kết hôn của nữ bằng nam)} \]
\[ H_1: p_1 - p_2 > 0 \quad \text{(Tỷ lệ đã kết hôn của nữ lớn hơn nam)} \]
Trong đó: - \(p_1 = P(\text{MaritalStatus} = M \mid \text{Gender} = F)\): tỷ lệ nữ đã kết hôn
# Trích số lượng người đã kết hôn theo giới
counts3 <- c(gm["F", "M"], gm["M", "M"])
totals3 <- c(sum(gm["F", ]), sum(gm["M", ]))
# Thực hiện kiểm định hiệu hai tỷ lệ
test3 <- prop.test(counts3, totals3, alternative = "greater", correct = FALSE)
test3
##
## 2-sample test for equality of proportions without continuity correction
##
## data: counts3 out of totals3
## X-squared = 11.479, df = 1, p-value = 0.0003519
## alternative hypothesis: greater
## 95 percent confidence interval:
## 0.01470685 1.00000000
## sample estimates:
## prop 1 prop 2
## 0.5023710 0.4737988
Kết quả kiểm định cho thấy:
Tỷ lệ nữ đã kết hôn (\(p_1\)) ≈ 50.24%
Tỷ lệ nam đã kết hôn (\(p_2\)) ≈ 47.38%
Hiệu hai tỷ lệ: \(d = p_1 - p_2 \approx 0.0286\)
Giá trị p-value = 0.00035
Khoảng tin cậy 95% cho hiệu tỷ lệ: [0.0147; 1]
Vì p-value < 0.05, ta bác bỏ giả thuyết \(H_0\). Điều này cho thấy có bằng chứng thống kê để kết luận rằng: Tỷ lệ nữ đã kết hôn cao hơn tỷ lệ nam đã kết hôn trong tập dữ liệu khảo sát.
gh <- table(dt$Gender, dt$Homeowner)
#Thêm tổng hàng và cột
gh1 <- addmargins(gh)
gh1
##
## N Y Sum
## F 2826 4344 7170
## M 2789 4100 6889
## Sum 5615 8444 14059
library(epitools)
riskratio(gh, method="wald")
## $data
##
## N Y Total
## F 2826 4344 7170
## M 2789 4100 6889
## Total 5615 8444 14059
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## F 1.0000000 NA NA
## M 0.9823291 0.9561812 1.009192
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.195158 0.1964833 0.1950884
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhóm nữ (F) được chọn làm nhóm tham chiếu, nên RR = 1. Điều này có nghĩa chúng ta so sánh nguy cơ sở hữu nhà của nhóm nam (M) với nhóm nữ.
Nhóm nam (M) có RR = 0.9823 nghĩa là:
` - Hay nói cách khác, nguy cơ (xác suất) sở hữu nhà của nam thấp hơn nữ khoảng 1.77%.
Khoảng tin cậy 95% của RR là (0.9562 – 1.0092):
Khoảng này bao gồm số 1, nghĩa là giá trị RR thực sự có thể là 1 (không có khác biệt).
Khoảng tin cậy cho ta biết mức độ chính xác của ước lượng RR; khoảng rộng và bao gồm 1 cho thấy sự không chắc chắn và thiếu bằng chứng về sự khác biệt thực sự.
Ta có giả thuyết:
H₀: Tỷ lệ sở hữu nhà ở Nam và Nữ không khác nhau, tức là RR = 1.
H₁: Tỷ lệ sở hữu nhà ở Nam và Nữ khác nhau, RR ≠ 1.
| Kiểm định | p-value (Nam so với Nữ) | Ý nghĩa chính |
|---|---|---|
| midp.exact | 0.1952 | p-value chính xác, sử dụng phương pháp “mid-p” (một biến thể chính xác hơn Fisher) |
| fisher.exact | 0.1965 | p-value từ kiểm định Fisher chính xác (phù hợp với bảng nhỏ hoặc số liệu ít) |
| chi.square | 0.1951 | p-value từ kiểm định Chi-square (xấp xỉ, dựa trên phân phối chi bình phương) |
Vì p-value > 0.05, ta không có đủ bằng chứng để nói rằng giới tính ảnh hưởng đáng kể đến khả năng sở hữu nhà.
Nói cách khác, sự khác biệt giữa nhóm Nam và nhóm Nữ về tỷ lệ sở hữu nhà không có ý nghĩa thống kê.
mh <- table(dt$MaritalStatus, dt$Homeowner)
mh1 <- addmargins(mh)
print(mh1)
##
## N Y Sum
## M 1719 5147 6866
## S 3896 3297 7193
## Sum 5615 8444 14059
riskratio(mh)
## $data
##
## N Y Total
## M 1719 5147 6866
## S 3896 3297 7193
## Total 5615 8444 14059
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## M 1.0000000 NA NA
## S 0.6114466 0.5942071 0.6291862
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## M NA NA NA
## S 0 1.822183e-277 3.663022e-272
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhóm đã kết hôn (M) được dùng làm nhóm tham chiếu với RR = 1.
Nhóm độc thân (S) có:
RR = 0.6114 (khoảng tin cậy 95%: 0.5942 – 0.6292).
Điều này có nghĩa là người độc thân có nguy cơ sở hữu nhà thấp hơn khoảng 38.86% so với người đã kết hôn.
Khoảng tin cậy 95% khá hẹp và không bao gồm giá trị 1, cho thấy sự khác biệt này là rõ ràng và đáng tin cậy.
Ta thực hiện kiểm định giả thuyết như sau:
H₀: Tỷ lệ sở hữu nhà của người đã kết hôn và độc thân là như nhau (RR = 1).
H₁: Tỷ lệ sở hữu nhà của hai nhóm là khác nhau (RR ≠ 1).
Kết quả phân tích chỉ ra RR = 0.6114 với khoảng tin cậy 95% (0.5942 – 0.6292), và các kiểm định cho p-value ≈ 0 < mức ý nghĩa 0.05. Do đó, ta bác bỏ H₀ và kết luận rằng tình trạng hôn nhân có mối liên hệ thống kê rõ rệt với khả năng sở hữu nhà. Người độc thân có khả năng sở hữu nhà thấp hơn đáng kể so với người đã kết hôn.
# 1. Lập bảng chéo 2x2 giữa Gender và MaritalStatus
gm <- table(dt$Gender, dt$MaritalStatus)
addmargins(gm) # Thêm hàng và cột tổng
##
## M S Sum
## F 3602 3568 7170
## M 3264 3625 6889
## Sum 6866 7193 14059
# 3. Tính RR
riskratio(gm)
## $data
##
## M S Total
## F 3602 3568 7170
## M 3264 3625 6889
## Total 6866 7193 14059
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## F 1.000000 NA NA
## M 1.057417 1.023813 1.092123
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.0007045092 0.0007373895 0.0007038837
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nam giới có nguy cơ đã kết hôn cao hơn nữ giới khoảng 5.7%. Vì RR > 1, điều này cho thấy tỷ lệ kết hôn ở nam cao hơn nữ trong dữ liệu này.
Với p-value < 0.05 và khoảng tin cậy không chứa 1, chúng ta có
bằng chứng thống kê để bác bỏ giả thuyết không.
Như vậy, nam giới có tỷ lệ kết hôn cao hơn nữ giới
trong bộ dữ liệu này.
# Tính OR và khoảng tin cậy
or_gh <- oddsratio(gh, method = "wald", conf.level = 0.95)
or_gh
## $data
##
## N Y Total
## F 2826 4344 7170
## M 2789 4100 6889
## Total 5615 8444 14059
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## F 1.0000000 NA NA
## M 0.9563518 0.8939173 1.023147
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.195158 0.1964833 0.1950884
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
oddsratio(gh, method = "wald", conf.level = 0.95)
## $data
##
## N Y Total
## F 2826 4344 7170
## M 2789 4100 6889
## Total 5615 8444 14059
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## F 1.0000000 NA NA
## M 0.9563518 0.8939173 1.023147
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.195158 0.1964833 0.1950884
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Kết quả phân tích Odds Ratio giữa giới tính và khả năng sở hữu nhà như sau:
Odds Ratio (OR) = 0.956
Khoảng tin cậy 95%: từ 0.894 đến 1.023
Diễn giải:
Giá trị OR = 0.956 cho thấy odds (cơ hội) sở hữu nhà của nữ thấp hơn nam khoảng 4.4%. Tuy nhiên, sự khác biệt là nhỏ.
Do khoảng tin cậy 95% chứa giá trị 1, nên:
Kết luận: Mặc dù nữ có vẻ có odds sở hữu nhà thấp hơn nam một chút, nhưng sự khác biệt không có ý nghĩa thống kê. Do đó, giới tính không phải là yếu tố ảnh hưởng rõ rệt đến khả năng sở hữu nhà trong dữ liệu hiện tại.
# Tính OR và khoảng tin cậy
or_mh <- oddsratio(mh, method = "wald", conf.level = 0.95)
or_mh
## $data
##
## N Y Total
## M 1719 5147 6866
## S 3896 3297 7193
## Total 5615 8444 14059
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## M 1.0000000 NA NA
## S 0.2826322 0.2630929 0.3036227
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## M NA NA NA
## S 0 1.822183e-277 3.663022e-272
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Odds Ratio (OR) = 0.283
Khoảng tin cậy 95%: từ 0.263 đến 0.304
Diễn giải:
Giá trị Odds Ratio 0.283 có nghĩa là odds sở hữu nhà của nhóm người độc thân chỉ bằng khoảng 28.3% odds của nhóm người đã kết hôn. Nói cách khác, người đã kết hôn có khả năng sở hữu nhà cao hơn gần 3.5 lần so với người độc thân (vì 1/0.283≈3.53).
Khoảng tin cậy 95% cho Odds Ratio nằm hoàn toàn dưới 1, từ 0.263 đến 0.304, điều này cho thấy sự khác biệt về odds sở hữu nhà giữa hai nhóm là có ý nghĩa thống kê và không phải do ngẫu nhiên.
Kết luận:
Dữ liệu cho thấy tình trạng hôn nhân ảnh hưởng rõ ràng đến khả năng sở hữu nhà. Người đã kết hôn có odds sở hữu nhà cao hơn đáng kể so với người độc thân, và khác biệt này là có ý nghĩa thống kê với mức độ tin cậy 95%. Đây là bằng chứng cho thấy việc đã kết hôn có liên quan chặt chẽ đến khả năng sở hữu nhà trong mẫu khảo sát này.
# Tính OR và khoảng tin cậy
or_gm <- oddsratio(gm, method = "wald", conf.level = 0.95)
or_gm
## $data
##
## M S Total
## F 3602 3568 7170
## M 3264 3625 6889
## Total 6866 7193 14059
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## F 1.000000 NA NA
## M 1.121184 1.049386 1.197893
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.0007045092 0.0007373895 0.0007038837
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Odds Ratio (OR) = 1.121
Khoảng tin cậy 95%: từ 1.049 đến 1.198
Diễn giải:
Giá trị Odds Ratio 1.121 có nghĩa là odds (cơ hội) đã kết hôn của nữ cao hơn odds đã kết hôn của nam khoảng 12.1%, hay nói cách khác, nữ có khả năng đã kết hôn cao hơn nam khoảng 1.12 lần.
Khoảng tin cậy 95% từ 1.049 đến 1.198, không chứa giá trị 1, chứng tỏ sự khác biệt này là có ý nghĩa thống kê. Điều này nghĩa là với mức tin cậy 95%, chúng ta chắc chắn rằng tỷ lệ đã kết hôn của nữ và nam không bằng nhau.
Kết luận:
Dữ liệu cho thấy nữ giới có odds đã kết hôn cao hơn nam giới khoảng 12%, tương đương với việc nữ có khả năng đã kết hôn gấp 1.12 lần so với nam giới.
Nguy cơ tương đối (RR) là một tỷ số giữa hai tỷ lệ (proportions).
\[ RR = \frac{EER}{CER} \]
Trong đó:
RR < 1 nếu nhóm nằm ở tử số có nguy cơ xảy ra sự kiện thấp hơn. Đây là điều mong muốn nếu sự kiện là kết cục xấu (ví dụ: tử vong).
RR > 1 nếu nhóm nằm ở tử số có nguy cơ xảy ra sự kiện cao hơn. Đây là điều mong muốn nếu sự kiện là kết cục tốt (ví dụ: bỏ thuốc lá thành công).