Để phục vụ cho mục đích học tập, tôi thu thập bộ dữ liệu từ bài nghiên cứu “Consumer Buying Behavior Analysis” có địa chỉ: https://www.kaggle.com/code/aradhanapratap/consumer-buying-behavior-analysis/notebook từ trang Kaggle.com. Dữ liệu này như một Case study phục vụ cho mục đích nghiên cứu học tập, vì vậy bộ dữ liệu chỉ mang tính tham khảo và tính xác thực của bộ dữ liệu cũng chỉ là tương đối.
Đây là bộ dữ liệu thu thập thông tin về người tiêu dùng như: Độ tuổi, giới tính, tình trạng hôn nhân, thu nhập… và thói quen mua hàng của họ dựa trên số tiền chi cho các sản phẩm về rượu, thịt, cá, đồ ngọt… Qua đó giúp doanh nghiệp hiểu rõ hơn về khách hàng của mình và dễ dàng điều chỉnh sản phẩm tùy theo nhu cầu, hành vi và mối quan tâm cụ thể của các nhóm đối tượng khách hàng khác nhau.
Bộ dữ liệu bao gồm 19 biến, 2217 quan sát (là 2217 khách hàng được ghi nhận lại). Vì không xác định được thời gian dữ liệu được thu thập nên tôi giả định các dữ liệu được thu thập trong một khoảng thời gian nhất định (Ví dụ các giao dịch của doanh nghiệp trong vòng một tháng).
Xét theo đặc điểm, các biến được chia thành 3 nhóm, gồm: nhóm thông tin về khách hàng, nhóm thông tin về sản phẩm được chọn mua và nhóm thông tin về nơi mua hàng. Các biến được đặt tên như sau:
Nhóm Khách hàng
ID: Định danh duy nhất của khách hàng
Year_Birth: Năm sinh của khách hàng
Education: Trình độ học vấn của khách hàng
Marital_Status: Tình trạng hôn nhân của khách hàng
Income: Thu nhập hộ gia đình hàng năm của khách hàng
Kidhome: Số con trong hộ gia đình khách hàng
Teenhome: Số lượng thanh thiếu niên trong hộ gia đình khách hàng
Recency: Số ngày kể từ lần mua cuối cùng của khách hàng.
Nhóm Các sản phẩm (Đơn vị: Đô la Mỹ)
MntWines: Số tiền chi cho rượu trong 2 năm qua
MntFruits: Số tiền chi cho trái cây trong 2 năm qua
MntMeatProducts: Số tiền chi cho thịt trong 2 năm qua
MntFishProducts: Số tiền chi cho cá trong 2 năm qua
MntSweetProducts: Số tiền chi cho đồ ngọt trong 2 năm qua
MntGoldProds: Số tiền mua vàng trong 2 năm qua.
Nhóm Địa điểm
NumWebPurchases: Số lần mua hàng được thực hiện thông qua trang web của công ty
NumCatalogPurchases: Số lần mua hàng được thực hiện bằng danh mục
NumStorePurchases: Số lần mua hàng được thực hiện trực tiếp tại các cửa hàng
NumWebVisitsMonth: Số lượt truy cập vào trang web của công ty trong tháng trước.
Nhập bộ dữ liệu
#Dữ liệu đầu vào
setwd("C:/Users/Asus/Documents/Data")
mydata <- read.csv("vlvy_marketing_dataset.csv", sep = ",")
View(mydata)
length(mydata)
## [1] 28
#Lọc lại dữ liệu, bỏ bớt biến dư thừa
mydata1 <- mydata[1:(length(mydata)-9)]
View(mydata1)
length(mydata1)
## [1] 19
head(mydata1)
## ID Year_Birth Education Marital_Status Income Kidhome Teenhome Recency
## 1 5524 1957 Graduation Single 58138 0 0 58
## 2 2174 1954 Graduation Single 46344 1 1 38
## 3 4141 1965 Graduation Together 71613 0 0 26
## 4 6182 1984 Graduation Together 26646 1 0 26
## 5 5324 1981 PhD Married 58293 1 0 94
## 6 7446 1967 Master Together 62513 0 1 16
## MntWines MntFruits MntMeatProducts MntFishProducts MntSweetProducts
## 1 635 88 546 172 88
## 2 11 1 6 2 1
## 3 426 49 127 111 21
## 4 11 4 20 10 3
## 5 173 43 118 46 27
## 6 520 42 98 0 42
## MntGoldProds NumDealsPurchases NumWebPurchases NumCatalogPurchases
## 1 88 3 8 10
## 2 6 2 1 1
## 3 42 1 8 2
## 4 5 2 2 0
## 5 15 5 5 3
## 6 14 2 6 4
## NumStorePurchases NumWebVisitsMonth
## 1 4 7
## 2 2 5
## 3 10 4
## 4 4 6
## 5 6 5
## 6 10 6
#Thống kê mô tả
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
Note that the echo = FALSE parameter was added to the
code chunk to prevent printing of the R code that generated the
plot.