Tần số
##
## F M
## 7170 6889
Tần suất
##
## F M
## 0.5099936 0.4900064
Biểu đồ cột
Biểu đồ tròn
Nhận xét: Vậy lượng khách hàng nữ chiếm 48% và lượng khác nam chiếm 51%. Sự chênh lệch nhỏ cho thấy không có sự ưu thế rõ rệt về số lượng khách hàng theo giới tính, điều này giúp đảm bảo tính đại diện và khách quan trong các phân tích tiếp theo.
Tần số
##
## M S
## 6866 7193
Tần suất
##
## M S
## 0.4883704 0.5116296
Biểu đồ cột
Biểu đồ tròn
Nhận xét: Vậy lượng khách hàng đã kết hôn chiếm 48% và lượng khác nam chiếm 51%. Sự chênh lệch nhỏ cho thấy không có sự ưu thế rõ rệt về số lượng khách hàng theo giới tính, điều này giúp đảm bảo tính đại diện và khách quan trong các phân tích tiếp theo.
Tần số
##
## N Y
## 5615 8444
Tần suất
##
## N Y
## 0.3993883 0.6006117
Biểu đồ cột
Biểu đồ tròn
Tần số
##
## $10K - $30K $110K - $130K $130K - $150K $150K + $30K - $50K
## 3090 643 760 273 4601
## $50K - $70K $70K - $90K $90K - $110K
## 2370 1709 613
Tần suất
##
## $10K - $30K $110K - $130K $130K - $150K $150K + $30K - $50K
## 0.21978804 0.04573583 0.05405790 0.01941817 0.32726367
## $50K - $70K $70K - $90K $90K - $110K
## 0.16857529 0.12155914 0.04360196
Biểu đồ cột
Tần số
##
## Acapulco Bellingham Beverly Hills Bremerton Camacho
## 383 143 811 834 452
## Guadalajara Hidalgo Los Angeles Merida Mexico City
## 75 845 926 654 194
## Orizaba Portland Salem San Andres San Diego
## 464 876 1386 621 866
## San Francisco Seattle Spokane Tacoma Vancouver
## 130 922 875 1257 633
## Victoria Walla Walla Yakima
## 176 160 376
Tần suất
##
## Acapulco Bellingham Beverly Hills Bremerton Camacho
## 0.027242336 0.010171420 0.057685468 0.059321431 0.032150224
## Guadalajara Hidalgo Los Angeles Merida Mexico City
## 0.005334661 0.060103848 0.065865282 0.046518245 0.013798990
## Orizaba Portland Salem San Andres San Diego
## 0.033003770 0.062308841 0.098584537 0.044170994 0.061597553
## San Francisco Seattle Spokane Tacoma Vancouver
## 0.009246746 0.065580767 0.062237712 0.089408920 0.045024539
## Victoria Walla Walla Yakima
## 0.012518671 0.011380610 0.026744434
Nhận xét: Dữ liệu thể hiện một sự chênh lệch đáng kể về tỷ lệ xuất hiện, dao động từ mức thấp nhất khoảng 0.0053 (Camacho) đến mức cao nhất gần 0.0986 (Salem), phản ánh sự khác biệt rõ rệt giữa các khu vực trong nghiên cứu. Các thành phố lớn như Los Angeles, Seattle, San Diego và Portland nổi bật với tỷ lệ cao, đều vượt trên 6%, điều này cho thấy sự tập trung mạnh mẽ của dữ liệu tại những trung tâm đô thị quan trọng. Hiện tượng này có thể là minh chứng cho vai trò nổi bật hoặc mức độ phổ biến cao của các khu vực này trong tổng thể tập dữ liệu. Ngược lại, các địa phương như Guadalajara, San Francisco và Victoria lại ghi nhận tỷ lệ thấp hơn nhiều, thường dưới 1.5%, điều này ám chỉ rằng dữ liệu tại những khu vực này có sự phân bố hạn chế hoặc ít được đại diện đầy đủ trong mẫu, có thể do đặc điểm địa lý, dân số hoặc cách thu thập dữ liệu.
Tần số
##
## BC CA DF Guerrero Jalisco OR Veracruz WA
## 809 2733 815 383 75 2262 464 4567
## Yucatan Zacatecas
## 654 1297
Tần suất
##
## BC CA DF Guerrero Jalisco OR
## 0.057543211 0.194395049 0.057969984 0.027242336 0.005334661 0.160893378
## Veracruz WA Yucatan Zacatecas
## 0.033003770 0.324845295 0.046518245 0.092254072
Biểu đồ cột
Biểu đồ tròn
Tần số
##
## Drink Food Non-Consumable
## 1250 10153 2656
Tần suất
##
## Drink Food Non-Consumable
## 0.08891102 0.72217085 0.18891813
BIểu đồ cột
Biểu đồ tròn
Nhận xét: phần lớn sản phẩm được tiêu thụ thuộc nhóm Food (thực phẩm), chiếm tới 72% tổng số giao dịch. Nhóm này bao gồm các mặt hàng thiết yếu hàng ngày như rau củ, thịt, sữa và thực phẩm đóng gói – phản ánh rõ xu hướng tiêu dùng tập trung vào nhu cầu cơ bản. Nhóm Non-Consumable (hàng không tiêu dùng) chiếm 19%, cho thấy vẫn có một phần đáng kể khách hàng quan tâm đến các sản phẩm như đồ dùng gia đình, vệ sinh cá nhân, v.v. Trong khi đó, Drink (đồ uống) chỉ chiếm 9%, là tỷ lệ thấp nhất trong ba nhóm.
Tần số
##
## Alcoholic Beverages Baked Goods Baking Goods Beverages
## 356 425 1072 680
## Breakfast Foods Canned Foods Canned Products Carousel
## 188 977 109 59
## Checkout Dairy Deli Eggs
## 82 903 699 198
## Frozen Foods Health and Hygiene Household Meat
## 1382 893 1420 89
## Periodicals Produce Seafood Snack Foods
## 202 1994 102 1600
## Snacks Starchy Foods
## 352 277
Tần suất
##
## Alcoholic Beverages Baked Goods Baking Goods Beverages
## 0.025321858 0.030229746 0.076250089 0.048367594
## Breakfast Foods Canned Foods Canned Products Carousel
## 0.013372217 0.069492852 0.007753041 0.004196600
## Checkout Dairy Deli Eggs
## 0.005832563 0.064229319 0.049719041 0.014083505
## Frozen Foods Health and Hygiene Household Meat
## 0.098300021 0.063518031 0.101002916 0.006330464
## Periodicals Produce Seafood Snack Foods
## 0.014368020 0.141830856 0.007255139 0.113806103
## Snacks Starchy Foods
## 0.025037343 0.019702682
Tần số
##
## Baking Goods Bathroom Products Beer and Wine
## 484 365 356
## Bread Breakfast Foods Candles
## 425 417 45
## Candy Canned Anchovies Canned Clams
## 352 44 53
## Canned Oysters Canned Sardines Canned Shrimp
## 35 40 38
## Canned Soup Canned Tuna Carbonated Beverages
## 404 87 154
## Cleaning Supplies Cold Remedies Dairy
## 189 93 903
## Decongestants Drinks Eggs
## 85 135 198
## Electrical Frozen Desserts Frozen Entrees
## 355 323 118
## Fruit Hardware Hot Beverages
## 765 129 226
## Hygiene Jams and Jellies Kitchen Products
## 197 588 217
## Magazines Meat Miscellaneous
## 202 761 42
## Packaged Vegetables Pain Relievers Paper Products
## 48 192 345
## Pizza Plastic Products Pure Juice Beverages
## 194 141 165
## Seafood Side Dishes Snack Foods
## 102 153 1600
## Specialty Starchy Foods Vegetables
## 289 277 1728
Tần suất
##
## Baking Goods Bathroom Products Beer and Wine
## 0.034426346 0.025962017 0.025321858
## Bread Breakfast Foods Candles
## 0.030229746 0.029660716 0.003200797
## Candy Canned Anchovies Canned Clams
## 0.025037343 0.003129668 0.003769827
## Canned Oysters Canned Sardines Canned Shrimp
## 0.002489508 0.002845153 0.002702895
## Canned Soup Canned Tuna Carbonated Beverages
## 0.028736041 0.006188207 0.010953837
## Cleaning Supplies Cold Remedies Dairy
## 0.013443346 0.006614980 0.064229319
## Decongestants Drinks Eggs
## 0.006045949 0.009602390 0.014083505
## Electrical Frozen Desserts Frozen Entrees
## 0.025250729 0.022974607 0.008393200
## Fruit Hardware Hot Beverages
## 0.054413543 0.009175617 0.016075112
## Hygiene Jams and Jellies Kitchen Products
## 0.014012376 0.041823743 0.015434953
## Magazines Meat Miscellaneous
## 0.014368020 0.054129028 0.002987410
## Packaged Vegetables Pain Relievers Paper Products
## 0.003414183 0.013656732 0.024539441
## Pizza Plastic Products Pure Juice Beverages
## 0.013798990 0.010029163 0.011736254
## Seafood Side Dishes Snack Foods
## 0.007255139 0.010882709 0.113806103
## Specialty Starchy Foods Vegetables
## 0.020556227 0.019702682 0.122910591
Nhận xét: Nhóm thực phẩm Vegetables (rau củ) dẫn đầu với tỷ lệ cao nhất đạt 12.29%, tiếp theo là Snack Foods (đồ ăn vặt) với 11.38%, và Dairy (sản phẩm từ sữa) ở mức 6.42%. Những mặt hàng này đều là các sản phẩm thiết yếu, có tần suất tiêu dùng cao và thường xuyên xuất hiện trong giỏ hàng mua sắm hàng ngày của người tiêu dùng. Ngoài ra, một số nhóm khác cũng ghi nhận tỷ trọng đáng kể, bao gồm Fruit (trái cây) với 5.44%, Meat (thịt) với 5.41%, và Jams and Jellies (mứt) với 4.18%, cho thấy xu hướng tiêu dùng nghiêng về các loại thực phẩm tươi sống hoặc chế biến sẵn, phản ánh sở thích đa dạng của khách hàng. Ngược lại, các sản phẩm như Canned Seafood (cá/hải sản đóng hộp), Candles, Miscellaneous, cũng như những mặt hàng đặc thù như Canned Oysters (hào đóng hộp) hoặc Canned Sardines (sardine đóng hộp) chỉ chiếm tỷ lệ dưới 1%. Điều này cho thấy chúng chủ yếu phục vụ một nhóm khách hàng hạn chế hoặc đáp ứng nhu cầu không thường xuyên, có thể do tính chất đặc biệt hoặc sự phụ thuộc vào sở thích cá nhân.
##
## 1-sample proportions test with continuity correction
##
## data: data_H_Y out of length(data$Homeowner), null probability 0.5
## X-squared = 568.86, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.5924537 0.6087145
## sample estimates:
## p
## 0.6006117
Tức là với mức tin cậy 95%, tỷ lệ thật sự của người sở hữu nhà nằm trong khoảng [59.25%, 60.87%]
\[ \left\{ \begin{array}{ll} H_0: & \text{Tỷ lệ sở hữu nhà trong tổng số khách hàng là 60% } \\\\ H_1: & \text{Tỷ lệ sở hữu nhà trong tổng số khách hàng khác 60%.} \ \end{array} \right. \]
##
## 1-sample proportions test with continuity correction
##
## data: data_H_Y out of length(data$Homeowner), null probability 0.6
## X-squared = 0.019445, df = 1, p-value = 0.8891
## alternative hypothesis: true p is not equal to 0.6
## 95 percent confidence interval:
## 0.5924537 0.6087145
## sample estimates:
## p
## 0.6006117
Kết quả kiểm định giả thuyết tỷ lệ cho thấy p-value = 0.8891 > 0.05, vì vậy không đủ cơ sở thống kê để bác bỏ giả thuyết \(H_0\) hay với mức ý nghĩa 5% thì tỷ lệ số khách hàng sở hữu nhà là 60%.
##
## 1-sample proportions test with continuity correction
##
## data: data_M_M out of length(data$MaritalStatus), null probability 0.5
## X-squared = 7.5593, df = 1, p-value = 0.00597
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4800765 0.4966708
## sample estimates:
## p
## 0.4883704
Với độ tin cậy 95%, tỷ lệ người đã kết hôn trong tổng khách hàng nằm trong khoảng 48.01% đến 49.67%.
\[ \left\{ \begin{array}{ll} H_0: & \text{Tỷ lệ đã kết hôn trong tổng số khách hàng là ít nhất 50% .} \\\\ H_1: & \text{Tỷ lệ đã kết hôn trong tổng số khách hàng là nhỏ hơn 50% .} \ \end{array} \right. \]
##
## 1-sample proportions test with continuity correction
##
## data: data_M_M out of length(data$MaritalStatus), null probability 0.5
## X-squared = 7.5593, df = 1, p-value = 0.002985
## alternative hypothesis: true p is less than 0.5
## 95 percent confidence interval:
## 0.0000000 0.4953419
## sample estimates:
## p
## 0.4883704
Vì p-value < 0.05, ta bác bỏ giả thuyết H₀ hay với mức ý nghĩa 5%, tỷ lệ khách hàng đã kết hôn nhỏ hơn 50% trong tổng số khách hàng.
##
## 1-sample proportions test with continuity correction
##
## data: data_P_F out of length(data$ProductFamily), null probability 0.5
## X-squared = 2774.9, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.7146709 0.7295489
## sample estimates:
## p
## 0.7221709
Với độ tin cậy 95%, tỷ lệ khách hàng mua thức ăn là từ 71.47% đến 72.95%.
H0: Tỷ lệ khách hàng mua thức ăn nhiều nhẩt là 70%
H1: Tỷ lệ khách hàng mua thức ăn lớn hơn 70%
##
## 1-sample proportions test with continuity correction
##
## data: data_P_F out of length(data$ProductFamily), null probability 0.7
## X-squared = 32.802, df = 1, p-value = 5.101e-09
## alternative hypothesis: true p is greater than 0.7
## 95 percent confidence interval:
## 0.7158789 1.0000000
## sample estimates:
## p
## 0.7221709
Vì p-value < 0.05, ta bác bỏ giả thuyết H₀ hay với mức ý nghĩa 5%, tỷ lệ khách hàng mua thức ăn lớn hơn 70% trong tổng số khách hàng.
##
## N Y
## M 1719 5147
## S 3896 3297
##
## N Y
## M 0.2503641 0.7496359
## S 0.5416377 0.4583623
Nhận xét mô tả
Ở nhóm khách hàng đã kết hôn, phần lớn có sở hữu nhà. Cụ thể, khoảng 74.96% khách hàng trong nhóm này sở hữu nhà, trong khi chỉ 25.04% là không sở hữu. Đây là một tỷ lệ sở hữu nhà khá cao. Ngược lại, ở nhóm khách hàng chưa kết hôn, tỷ lệ sở hữu nhà lại thấp hơn. Chỉ 45.84% khách hàng chưa kết hôn có sở hữu nhà, trong khi phần lớn (54.16%) không sở hữu.
Từ biểu đồ, chúng ta có thể thấy một xu hướng rõ ràng: Khách hàng đã kết hôn có xu hướng sở hữu nhà cao hơn so với khách hàng chưa kết hôn. Điều này có thể phản ánh thực tế rằng người đã lập gia đình thường có nhu cầu và khả năng tài chính ổn định hơn để mua nhà.
\[ \left\{ \begin{array}{ll} H_0: & \text{Tình trạng hôn nhân và tình trạng sở hữu nhà là độc lập nhau} \\\\ H_1: & \text{Tình trạng hôn nhân và tình trạng sở hữu nhà có môi liên quan với nhau.} \ \end{array} \right. \]
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(data$MaritalStatus, data$Homeowner)
## X-squared = 1241.2, df = 1, p-value < 2.2e-16
Kết quả kiểm định
Giá trị thống kê Chi-bình phương: 1241.2
Bậc tự do (df): 1
Giá trị p: < 2.2e-16
Nhận xét
Vì p-value < 0.05, ta bác bỏ giả thuyết H₀. Điều này cho thấy có mối quan hệ có ý nghĩa thống kê giữa tình trạng hôn nhân và việc sở hữu nhà.
Thảo luận
Kết quả kiểm định khẳng định rằng có mối liên quan giữa việc sở hữu nhà với tình trạng hôn nhân. Điều này phù hợp với kết quả của bảng tần số: tỷ lệ người đã kết hôn sở hữu nhà cao hơn nhiều so với người độc thân. Có thể lý giải rằng người đã kết hôn thường có xu hướng ổn định về nhà ở hơn, hoặc có khả năng tài chính tốt hơn để mua nhà.
##
## Drink Food Non-Consumable
## F 669 5149 1352
## M 581 5004 1304
##
## Drink Food Non-Consumable
## F 0.09330544 0.71813110 0.18856346
## M 0.08433735 0.72637538 0.18928727
Nhận xét mô tả
Ở nhóm khách hàng nữ, phần lớn mua các sản phẩm thuộc nhóm Food, chiếm tới 71.81%. Nhóm sản phẩm Non-Consumable chiếm tỷ lệ nhỏ hơn (18.86%), trong khi Drink là dòng sản phẩm ít phổ biến nhất với chỉ 9.33%. Điều này cho thấy thực phẩm là nhu cầu mua sắm chủ yếu của khách hàng nữ.
Tương tự, ở nhóm khách hàng nam, sản phẩm Food cũng chiếm ưu thế rõ rệt với tỷ lệ 72.64%. Các sản phẩm Non-Consumable chiếm tỷ lệ tương đương với nhóm nữ (18.93%), còn sản phẩm Drink có tỷ lệ thấp nhất là 8.43%.
Từ biểu đồ, có thể thấy rằng bất kể giới tính, khách hàng đều có xu hướng ưu tiên mua sắm các sản phẩm thuộc dòng Food, trong khi dòng Drink chỉ chiếm một tỷ lệ nhỏ. Tuy nhiên, sự chênh lệch giữa nam và nữ là không đáng kể, cho thấy hành vi tiêu dùng theo dòng sản phẩm khá tương đồng giữa hai giới.
\[ \left\{ \begin{array}{ll} H_0: & \text{Giới tính và dòng sản phẩm là độc lập nhau} \\\\ H_1: & \text{Giới tính và dòng sản phẩm có môi liên quan với nhau.} \ \end{array} \right. \]
##
## Pearson's Chi-squared test
##
## data: table(data$Gender, data$ProductFamily)
## X-squared = 3.5185, df = 2, p-value = 0.1722
Kết quả kiểm định
Giá trị thống kê Chi-bình phương: 3.5185
Bậc tự do (df): 2
Giá trị p: 0.1722
Nhận xét
Vì p-value > 0.05 nên không đủ điều kiện bác bỏ giả thuyết H₀. Điều này cho thấy không có mối quan hệ có ý nghĩa thống kê giữa giới tính và dòng sản phẩm. Nói cách khác, lựa chọn dòng sản phẩm của khách hàng không khác biệt đáng kể giữa nam và nữ.
Thảo luận
Kết quả kiểm định cho thấy không có mối liên quan có ý nghĩa thống kê giữa giới tính và dòng sản phẩm. Điều này cũng phù hợp với biểu đồ phân bố: tỷ lệ lựa chọn các dòng sản phẩm giữa nam và nữ không có sự khác biệt đáng kể. Dù có một số chênh lệch nhỏ về tỷ lệ, chẳng hạn như nữ có xu hướng mua đồ uống nhiều hơn nam, nhưng mức độ chênh lệch này không đủ lớn để kết luận rằng giới tính ảnh hưởng đến lựa chọn dòng sản phẩm.
##
## N Y
## $10K - $30K 1359 1731
## $110K - $130K 119 524
## $130K - $150K 136 624
## $150K + 48 225
## $30K - $50K 2087 2514
## $50K - $70K 1063 1307
## $70K - $90K 686 1023
## $90K - $110K 117 496
##
## N Y
## $10K - $30K 0.4398058 0.5601942
## $110K - $130K 0.1850700 0.8149300
## $130K - $150K 0.1789474 0.8210526
## $150K + 0.1758242 0.8241758
## $30K - $50K 0.4535970 0.5464030
## $50K - $70K 0.4485232 0.5514768
## $70K - $90K 0.4014043 0.5985957
## $90K - $110K 0.1908646 0.8091354
Biểu đồ thể hiện tỷ lệ sở hữu nhà ở các nhóm thu nhập khác nhau cho thấy một xu hướng rõ rệt: thu nhập càng cao thì tỷ lệ sở hữu nhà càng lớn. Cụ thể, ở nhóm thu nhập thấp nhất từ $10K - $30K, chỉ có khoảng 56.02% khách hàng sở hữu nhà, trong khi 43.98% không sở hữu. Ngược lại, ở các nhóm thu nhập cao từ $110K trở lên, tỷ lệ sở hữu nhà luôn trên 80%.
Đối với các nhóm thu nhập trung bình từ $30K - $90K, tỷ lệ sở hữu nhà dao động trong khoảng 54% đến 60%, phản ánh một mức độ sở hữu tương đối cân bằng giữa hai nhóm “có” và “không” sở hữu nhà. Trong khi đó, mhóm thu nhập thấp ($10K - $30K) là nhóm duy nhất mà tỷ lệ không sở hữu nhà gần bằng tỷ lệ sở hữu, với 43.98% không sở hữu.
\[ \left\{ \begin{array}{ll} H_0: & \text{Việc sở hữu nhà và thu nhập nhập hàng năm là độc lập với nhau} \\\\ H_1: & \text{Việc sở hữu nhà và thu nhập hàng năm có mối liên quan với nhau.} \ \end{array} \right. \]
##
## Pearson's Chi-squared test
##
## data: table(data$AnnualIncome, data$Homeowner)
## X-squared = 546.37, df = 7, p-value < 2.2e-16
Kết quả kiểm định
Giá trị thống kê Chi-bình phương: 546.37
Bậc tự do (df): 2
Giá trị p: 2.2e-16
Nhận xét
Vì p-value < 0.05 nên ta bác bỏ giả thuyết H₀. Điều này cho thấy với mức ý nghĩa 5% thì việc sở hữu nhà và mức thu nhập hàng năm có mối liên hệ với nhau.
Thảo luận
Kết quả phân tích cho thấy có mối liên hệ rất rõ ràng giữa mức thu nhập và khả năng sở hữu nhà. Tỷ lệ sở Kết quả cũng cho thấy sự chênh lệch rõ rệt giữa hai nhóm “có” và “không” sở hữu nhà trở nên lớn hơn ở các mức thu nhập cao, trong khi ở nhóm thu nhập thấp, tỷ lệ này tương đối cân bằng. Điều này cho thấy rằng thu nhập là yếu tố then chốt ảnh hưởng đến việc sở hữu nhà ở.