Bài tập về nhà tuần 1

Giới thiệu các biến

Mô tả: Dữ liệu BikeSales là một bộ dữ liệu bảng lấy từ website: https://www.kaggle.com/datasets/mohamedelshraby/bike-sales-datasets-dashboard. Bộ dữ liệu phân tích và đánh giá các yếu tố ảnh hưởng đến hành vi tiêu thụ xe đạp của một công ty ở Châu Âu chứa 1000 quan sát và trong đó có 13 biến gồm:

  1. CustomerID: mã ID của khách hàng (12496,24107,14177,…)
  2. MaritalStatus: Tình trạng hôn nhân(M - Married: Đã kết hôn, S - Single: Độc thân )
  3. Gender: Giới tính của khách hàng (F -Female: Nữ giới, M - Male: Nam giới)
  4. Income: Thu nhập cá nhân tính trên tháng với đơn vị đô la (40.000, 30.000, 80.000,…)
  5. Children: Số người con của khách hàng (0,1,2,3,4,5)
  6. Education: Trình độ học vấn (Bachelors: Cử nhân, Partial College: Đại học một phần, High School: Trung học,…)
  7. Occupation: Lĩnh vực nghề nghiệp (Management: Quản lý, Clerical: Văn thư, Professional: Chuyên nghiệp,…)
  8. HomeOwner: Tình trạng sở hữu nhà (Yes: Có, No: Không)
  9. Cars: Số ô tô mà khách hàng có (0,1,2,3,4)
  10. CommuteDistance: Khoảng cách đi làm (0-1 Miles, 1-2 Miles,2-5 Miles, 5-10 Miles,>10 Miles)
  11. Region: Khu vực sinh sống (Europe, Pacific, North America)
  12. AgeRange: Độ tuổi của khách hàng (Age20-30, Age30-40, Age40-50, Age50-60, Age60-70, Age71 and above)
  13. Purchase Bike:Quyết định mua xe đạp của khách hàng.(Yes: Có mua, No: Không mua)

Lấy dữ liệu BikeSales

library(readxl)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
# *Găn dữ liệu BikeSales cho biến bike*
bike <- read_excel("D:/RStudio/bikesale.xlsx", sheet =1)
# *Mô tả chi tiết kiểu biến số của datasheet BikeSales*
str(bike)
## tibble [1,000 x 13] (S3: tbl_df/tbl/data.frame)
##  $ CustomerID      : num [1:1000] 12496 24107 14177 24381 25597 ...
##  $ MaritalStatus   : chr [1:1000] "M" "M" "M" "S" ...
##  $ Gender          : chr [1:1000] "F" "M" "M" "M" ...
##  $ Income$         : num [1:1000] 40000 30000 80000 70000 30000 10000 160000 40000 20000 120000 ...
##  $ Children        : num [1:1000] 1 3 5 0 0 2 2 1 2 2 ...
##  $ Education       : chr [1:1000] "Bachelors" "Partial College" "Partial College" "Bachelors" ...
##  $ Occupation      : chr [1:1000] "Skilled Manual" "Clerical" "Professional" "Professional" ...
##  $ HomeOwner       : chr [1:1000] "Yes" "Yes" "No" "Yes" ...
##  $ Cars            : num [1:1000] 0 1 2 1 0 0 4 0 2 1 ...
##  $ Commute Distance: chr [1:1000] "0-1 Miles" "0-1 Miles" "2-5 Miles" "5-10 Miles" ...
##  $ Region          : chr [1:1000] "Europe" "Europe" "Europe" "Pacific" ...
##  $ Age Range       : chr [1:1000] "Age40-50" "Age40-50" "Age50-60" "Age40-50" ...
##  $ Purchased Bike  : chr [1:1000] "No" "No" "No" "Yes" ...
# *Gắn tên viết tắt cho các biến để dễ thao tác*
names(bike)
##  [1] "CustomerID"       "MaritalStatus"    "Gender"           "Income$"         
##  [5] "Children"         "Education"        "Occupation"       "HomeOwner"       
##  [9] "Cars"             "Commute Distance" "Region"           "Age Range"       
## [13] "Purchased Bike"
names(bike) <- c("ID", "MS", "GD", "IC", "CHID", "EDU", "OC", "HO", "CAR", "CD", "RE", "AGE", "PUR")
head(bike)
## # A tibble: 6 x 13
##      ID MS    GD       IC  CHID EDU    OC    HO      CAR CD    RE    AGE   PUR  
##   <dbl> <chr> <chr> <dbl> <dbl> <chr>  <chr> <chr> <dbl> <chr> <chr> <chr> <chr>
## 1 12496 M     F     40000     1 Bache~ Skil~ Yes       0 0-1 ~ Euro~ Age4~ No   
## 2 24107 M     M     30000     3 Parti~ Cler~ Yes       1 0-1 ~ Euro~ Age4~ No   
## 3 14177 M     M     80000     5 Parti~ Prof~ No        2 2-5 ~ Euro~ Age5~ No   
## 4 24381 S     M     70000     0 Bache~ Prof~ Yes       1 5-10~ Paci~ Age4~ Yes  
## 5 25597 S     M     30000     0 Bache~ Cler~ No        0 0-1 ~ Euro~ Age3~ Yes  
## 6 13507 M     F     10000     2 Parti~ Manu~ Yes       0 1-2 ~ Euro~ Age4~ No

Giới thiệu và thống kê các biến BikeSales

# *Phân tích biến Income (Thu nhập của khách hàng)*
summary(bike$IC)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   10000   30000   60000   56360   70000  170000

Dựa theo kết quả phân tích của phần mềm R tôi thấy được khách hàng có thu nhập cao nhất đến mua xe đạp là 170.000 đô và khách hàng có thu nhập thấp nhất là 10.000 đô, trung bình thu nhập của mỗi khách hàng đến mua xe là 56.360 đô và có 50% số người có thu nhập dưới 60.000 đô đến mua hàng.

# *Phân tích biến Children (Số người con của khách hàng)*
summary(bike$CHID)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   2.000   1.898   3.000   5.000

Dựa vào số liệu thống kê ở trên ta phân tích được khách hàng có số người con nhiều nhất đến mua xe đạp là 5 người và ít nhất là khách hàng chưa có người con nào , trung bình mỗi khách hàng có tầm 2 người con đến mua xe đạp và có 50% khách hàng có dưới 2 người con đến mua hàng.

# *Phân tích biến CARS (số xe hơi khách hàng có)*
summary(bike$CAR)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   1.000   1.000   1.442   2.000   4.000

Theo kết quả thống kê từ phần mềm R tôi thấy khách hàng đến mua xe đạp mà có số xe hơi nhiều nhất là 4 chiếc và ít nhất đến mua xe đạp là không có chiếc xe hơi nào, trung bình mỗi khách hàng đến mua xe đạp có tầm 1 chiếc xe hơi và có 50% số khách có dưới 1 chiếc xe hơi đến mua hàng.

# *Phân tích biến MaritalStatus (Tình trạng hôn nhân):*
table(bike$MS)/1000*100
## 
##    M    S 
## 53.8 46.2

Theo bảng tần suất về tình trạng hôn nhân của những khách hàng đến mua xe đạp thì số người kết hôn chiếm cao nhất trong tổng 1000 người là 53.8% và số người độc thân chiếm 46.2%.

# *Phân tích biến Gender (Giới tính):*
table(bike$GD)/1000*100
## 
##    F    M 
## 48.9 51.1
## *Hiển thị theo biểu đồ*
library(ggplot2)
ggplot(data=bike)+geom_bar(mapping = aes(x=GD, fill=GD))

Theo kết quả thống kê ta thấy số khách hàng nam và nữ đến mua xe đạp không có sự chênh lệnh quá nhiều trong đó tỷ lệ khách hàng nam chiếm khoảng 51% và tỷ lệ khách hàng nữ chiếm khoảng 49%.

# *Phân tích biến HomeOwner (Tình trạng hôn nhân):*
table(bike$HO)/1000*100
## 
##   No  Yes 
## 31.7 68.3
## *Hiển thị theo biểu đồ*
library(ggplot2)
ggplot(data=bike)+geom_bar(mapping = aes(x=HO))

Theo kết quả phân tích và đồ thị ta thấy được những khách hàng đã có gia đình sẽ đến mua xe đạp chiếm tỷ lệ gấp đôi số khách còn độc thân đến 68.3%, ngược lại số khách hàng chưa lập gia đình đến mua xe chỉ chiếm khoảng 31.7%.

# *Phân tích biến AgeRange (Độ tuổi):*
table(bike$AGE)/1000*100
## 
##        Age20-30        Age30-40        Age40-50        Age50-60        Age60-70 
##            11.0            31.6            29.8            17.6             8.9 
## Age71 and above 
##             1.1
## *Hiển thị theo biểu đồ*
library(ggplot2)
ggplot(data=bike)+geom_bar(mapping = aes(x=AGE, fill=AGE))

Theo kết quả phân tích và đồ thị ta thấy được xu hướng khách hàng đến mua xe đạp nằm trong độ tuổi từ 30 đến 40 tuổi chiếm cao nhất trong tổng số 1000 người là 31.6%. Tiếp đến là khách hàng từ 40 đến 60 tuổi đứng thứ hai chiếm 29.8%, sau đó là nhóm khách hàng từ 50 đến 60 tuổi chiếm 17.6%.Ngược lại, Khách hàng nằm trong độ tuổi từ 71 tuổi trở lên đến mua xe chỉ chiếm 1.1%.

Bài tập về nhà tuần 2: Lựa chọn các biến định tính và định lượng

Trước tiên tôi sẽ phân tích tác động giữa biến định tính “Tình trạng sở hữu nhà” và biến định lượng “Số xe khách hàng hiện có” tới hành vi mua xe đạp của khách hàng.

library(ggplot2)
income <- cut(bike$IC, 5)
age.in <- table(bike$CAR,bike$HO)
age.in
##    
##      No Yes
##   0  47 200
##   1 108 159
##   2 115 227
##   3  31  54
##   4  16  43
barplot(age.in, beside=TRUE, xlab = "Purchased Bike", ylab="Income")

barplot(age.in, beside=TRUE, xlab = "HomeOwner")

Dựa vào đồ thị và kết quả phân tích của phần mềm R tôi thấy số khách hàng đã có nhà đến mua xe nhiều hơn số khách hàng chưa sở hữu nhà, trong đó tỷ lệ khách hàng đã có nhà mà chưa có xe hơi nào chiếm gấp 3 lần số khách hàng chưa có nhà mà cũng chưa có xe hơi.Ngoài ra, số khách đã sở hữu nhà và có 4 chiếc xe hơi đến mua xe đạp nhiều gấp đôi số khách chưa có nhà và có 4 chiếc xe hơi.