Bài tập tuần 1

1.1 Thu thập dữ liệu:

Để phục vụ cho mục đích học tập, tôi thu thập bộ dữ liệu từ bài nghiên cứu “Consumer Buying Behavior Analysis” có địa chỉ: https://www.kaggle.com/code/aradhanapratap/consumer-buying-behavior-analysis/notebook từ trang Kaggle.com. Dữ liệu này như một Case study phục vụ cho mục đích nghiên cứu học tập, vì vậy bộ dữ liệu chỉ mang tính tham khảo và tính xác thực của bộ dữ liệu cũng chỉ là tương đối.

Đây là bộ dữ liệu thu thập thông tin về người tiêu dùng như: Độ tuổi, giới tính, tình trạng hôn nhân, thu nhập… và thói quen mua hàng của họ dựa trên số tiền chi cho các sản phẩm về rượu, thịt, cá, đồ ngọt… Qua đó giúp doanh nghiệp hiểu rõ hơn về khách hàng của mình và dễ dàng điều chỉnh sản phẩm tùy theo nhu cầu, hành vi và mối quan tâm cụ thể của các nhóm đối tượng khách hàng khác nhau.

1.2 Giải thích dữ liệu:

Bộ dữ liệu bao gồm 19 biến, 2217 quan sát (là 2217 khách hàng được ghi nhận lại). Vì không xác định được thời gian dữ liệu được thu thập nên tôi giả định các dữ liệu được thu thập trong một khoảng thời gian nhất định (Ví dụ các giao dịch của doanh nghiệp trong vòng một tháng).

Xét theo đặc điểm, các biến được chia thành 3 nhóm, gồm: nhóm thông tin về khách hàng, nhóm thông tin về sản phẩm được chọn mua và nhóm thông tin về nơi mua hàng. Các biến được đặt tên như sau:

Nhóm Khách hàng

  • ID: Định danh duy nhất của khách hàng

  • Year_Birth: Năm sinh của khách hàng

  • Education: Trình độ học vấn của khách hàng

  • Marital_Status: Tình trạng hôn nhân của khách hàng

  • Income: Thu nhập hộ gia đình hàng năm của khách hàng

  • Kidhome: Số con trong hộ gia đình khách hàng

  • Teenhome: Số lượng thanh thiếu niên trong hộ gia đình khách hàng

  • Recency: Số ngày kể từ lần mua cuối cùng của khách hàng.

Nhóm Các sản phẩm (Đơn vị: Đô la Mỹ)

  • MntWines: Số tiền chi cho rượu trong 2 năm qua

  • MntFruits: Số tiền chi cho trái cây trong 2 năm qua

  • MntMeatProducts: Số tiền chi cho thịt trong 2 năm qua

  • MntFishProducts: Số tiền chi cho cá trong 2 năm qua

  • MntSweetProducts: Số tiền chi cho đồ ngọt trong 2 năm qua

  • MntGoldProds: Số tiền mua vàng trong 2 năm qua.

Nhóm Địa điểm

  • NumWebPurchases: Số lần mua hàng được thực hiện thông qua trang web của công ty

  • NumCatalogPurchases: Số lần mua hàng được thực hiện bằng danh mục

  • NumStorePurchases: Số lần mua hàng được thực hiện trực tiếp tại các cửa hàng

  • NumWebVisitsMonth: Số lượt truy cập vào trang web của công ty trong tháng trước.

Nhập bộ dữ liệu

#Dữ liệu đầu vào
setwd("C:/Users/Asus/Documents/Data")
mydata <- read.csv("vlvy_marketing_dataset.csv", sep = ",")
View(mydata)
length(mydata)
## [1] 28
#Lọc lại dữ liệu, bỏ bớt biến dư thừa
mydata1 <- mydata[1:(length(mydata)-9)] 
View(mydata1)
length(mydata1)
## [1] 19
head(mydata1)
##     ID Year_Birth  Education Marital_Status Income Kidhome Teenhome Recency
## 1 5524       1957 Graduation         Single  58138       0        0      58
## 2 2174       1954 Graduation         Single  46344       1        1      38
## 3 4141       1965 Graduation       Together  71613       0        0      26
## 4 6182       1984 Graduation       Together  26646       1        0      26
## 5 5324       1981        PhD        Married  58293       1        0      94
## 6 7446       1967     Master       Together  62513       0        1      16
##   MntWines MntFruits MntMeatProducts MntFishProducts MntSweetProducts
## 1      635        88             546             172               88
## 2       11         1               6               2                1
## 3      426        49             127             111               21
## 4       11         4              20              10                3
## 5      173        43             118              46               27
## 6      520        42              98               0               42
##   MntGoldProds NumDealsPurchases NumWebPurchases NumCatalogPurchases
## 1           88                 3               8                  10
## 2            6                 2               1                   1
## 3           42                 1               8                   2
## 4            5                 2               2                   0
## 5           15                 5               5                   3
## 6           14                 2               6                   4
##   NumStorePurchases NumWebVisitsMonth
## 1                 4                 7
## 2                 2                 5
## 3                10                 4
## 4                 4                 6
## 5                 6                 5
## 6                10                 6
#Thống kê mô tả 
summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.