Đường liên kết bộ số liệu:
Đường link file PDF bài tiểu luận kết thúc môn:
https://drive.google.com/file/d/1iosZasc72uEA3kAMccrDqHGWUii7x9Aw/view?usp=drivesdk
Lời đầu tiên tôi xin chân thành cảm ơn đến Ban giám hiệu trường Đại học Tài chính – Marketing thành phố Hồ Chí Minh đã tạo điều kiện để tôi có một môi trường học tập thoải mái về cơ sở hạ tầng, cơ sở vật chất, cảm ơn ban lãnh đạo cùng các cán bộ khoa Kinh tế - Luật của trường đã quản lý, tổ chức hiệu quả và chất lượng giúp tôi yên tâm trong suốt quá trình học tập và nghiên cứu.
Tiếp theo, tôi xin trân trọng cảm ơn thầy Trần Mạnh Tường thuộc khoa Kinh tế - Luật trường đại học Tài chính – Marketing đã hướng dẫn em Võ Thị Kim Oanh, đã tận tình giảng dạy và truyền đạt những kiến thức quý báu cho em trong suốt quá trình học tập. Những gì thầy dạy chắc chắn là những hành trang quan trọng để em có thể vững bước sau này.
Bài tiểu luận kết thúc môn với đề tài “Phân tích và đánh giá các yếu tố ảnh hưởng đến hành vi mua xe đạp của khách hàng” đã được hoàn thành dưới sự nỗ lực và vận dụng tất cả những kỹ năng làm bài tiểu luận thầy đã chỉ dạy và hướng dẫn. Do thời gian và trình độ còn hạn chế, bài báo cáo không thể tránh khỏi những thiếu sót. Kính mong thầy chỉ bảo và đóng góp ý kiến để bài báo cáo tiểu luận của tôi được hoàn thiện hơn. Tôi xin chân thành cảm ơn!.
Trải qua một làn sóng lớn của cuộc chiến chống đại dịch Covid - 19, thời gian gần đây nhiều người tiêu dùng đã chọn xe đạp như một giải pháp tập thể dục an toàn và rèn luyện sức đề kháng cho bản thân khiến cho nhu cầu sử dụng xe đạp tăng mạnh, trở thành trào lưu và ngày càng được nhiều người yêu thích. Thị trường xe đạp là một thị trường phân mảnh và có tính cạnh tranh cao bao gồm nhiều công ty quốc tế và khu vực. Theo nghiên cứu của SSI Research, nhu cầu xe đạp trong nước ở mức 3 triệu chiếc/năm, với giá bán 2- 2,5 triệu đồng/chiếc, tổng quy mô của thị trường này roi vào khoảng 5,000 -6,000 tỷ/năm. Ngoài ra, theo trang Bangkok Post, không chỉ tại Đức mà ở nhiều quốc gia khác như Pháp nhu cầu sử dụng xe đạp đặc biệt là các mẫu xe phổ thông và tầm trung ngày càng phổ biến.
Nhận thấy được tiềm năng của thị trường xe đạp, tôi tiến hành nghiên cứu đề tài: “Phân tích và đánh giá các yếu tố ảnh hưởng đến hành vi mua xe đạp của khách hàng” để đánh giá xu hướng và thói quen, phân khúc khách hàng tiềm năng sử dụng xe đạp nghiên cứu tại một công ty châu Âu, từ đó đưa ra phương án và các chương trình khuyến mãi nhằm đẩy mạnh nhu cầu tiêu thụ xe đạp ra thị trường trong nước.
Trong phạm vi đề tài, tôi sẽ tập trung vào việc thu thập và phân tích các dữ liệu liên quan đến khách hàng và hoạt động tài chính của họ bao gồm các thông tin về giới tính, tình trạng nhà ở, số người con trong gia đình, công việc, trình độ học vấn, độ tuổi,thu nhập trung bình trong một tháng… Nhờ vào việc phân tích dữ liệu, chúng ta sẽ có cái nhìn tổng quan về phân khúc khách hàng tiêu thụ xe đạp.
Nhìn chung, nghiên cứu này hứa hẹn mang lại những đóng góp to lớn cho sự phát triển của thị trường xe đạp trong nước. Việc hiểu rõ hơn về các yếu tố ảnh hưởng đến hành vi tiêu thụ xe đạp của khách hàng sẽ giúp thúc đẩy sự phát triển bền vững của nền kinh tế và tạo điều kiện thuận lợi đẩy mạnh và tuyên truyền sử dụng xe đạp như một phương tiện giao thông bảo vệ môi trường và hạn chế tình trạng kẹt xe, ùn tắc giao thông công cộng.
Dựa trên các thông tin đã thu thập được từ cuộc khảo sát, mục tiêu chính của đề tài này là phân tích các yếu tố ảnh hưởng đến ảnh hưởng đến mức tiêu thụ xe đạp của khách hàng nghiên cứu tại một công ty ở Châu Âu . Đề tài sẽ tập trung vào việc xem xét và đánh giá sự ảnh hưởng của các yếu tố như giới tính, thu nhập trung bình trong 1 tháng, nghề nghiệp, trình độ học vấn, tình trạng hôn nhân và một số yếu tố khác có thể liên quan. Từ đó giúp tuyên truyền và thúc đẩy phát triển mạnh thói quen đi xe đạp, khuyến khích sử dụng để bảo vệ môi trường sống, tăng cường sức khoẻ và giảm lượng khí thải cacbon ra cuộc sống.
Đối tượng nghiên cứu trong đề tài “Phân tích và đánh giá các yếu tố ảnh hưởng đến hành vi mua xe đạp của khách hàng” là phân khúc nhóm khách hàng khác nhau đã từng mua xe đạp thu thập tại một công ty châu Âu trong một khoảng thời gian nhất định. Các khách hàng trong đối tượng nghiên cứu sẽ có các thông tin về thu nhập, tình trạng hôn nhân, nghệ nghiệp, trình độ học vấn, tình trạng nhà ở và một số thông tin cá nhân khác liên quan đến việc mua sắm xe đạp . Dữ liệu này cho phép phân tích về các yếu tố có thể ảnh hưởng đến quyết định mua xe đạp của từng khách hàng nhằm đưa ra các chính sách, chương trình khuyến mãi đánh mạnh vào nhóm người tiêu thụ xe đạp nhiều nhất và mở rộng thị trường xe đạp trong nước.
Chương 1: Phần mở đầu
Nội dung này trình bày một cách tổng quát nhất về nghiên cứu bao gồm: Lý do nghiên cứu, mục tiêu nghiên cứu, phương pháp nghiên cứu, phạm vi nghiên cứu, ý nghĩa nghiên cứu, kết cấu nghiên cứu.
Chương 2: Tổng quan bộ số liệu nghiên cứu
Nội dung chương này sẽ trình bày giới thiệu về bộ số liệu thu thập được ở một công ty châu Âu, khái quát về các biến ảnh hưởng đến mức tiêu thụ xe đạp của mỗi khách hàng và tiến hành thống kê mô tả kết hợp vẽ đồ thị phân tích cho từng biến cụ thể trong việc đánh giá từng phân khúc nhóm khách hàng khác nhau.
Chương 3: Thống kê mô tả và suy diễn cho bộ số liệu
Nội dung chương này sẽ phân tích thống kê mô tả mở rộng sâu hơn về mối quan hệ tác động qua lại giữa các biến đến quyết định và xu hướng mua xe đạp cho từng khách hàng, kết hợp vẽ biểu đồ trực quan, tính độ nhạy và độ đặc hiệu, các chỉ số thống kê rủi ro tương đối - Relative Risk và tỷ lệ chênh - Odd Ratio . Đồng thời kết hợp thống kê suy diễn thông qua thực hiện kiểm định tính độc lập và ước lượng tỷ lệ cho các biến định tính, định lượng trong bộ dữ liệu.
Chương 4: Mô hình hồi quy
Nội udng chương này tiến hành lập mô hình nghiên cứu cho bộ dữ liệu thu thập được thông qua ước lượng mô hình hồi quy cho dữ liệu nhị phân và dữ liệu Poisson.
Chương 5: Kết quả nghiên cứu và thảo luận
Nội dung chương này trình bày giải thích kết quả cho mô hình hồi quy về các yếu tố ảnh hưởng đến mức tiêu thụ xe đạp của khách hàng để làm bài toán dự báo tính toán ra xác suất cho từng hàm liên kết của dữ liệu nhị phân. Sau đó tiến hành đánh giá lựa chọn ra mô hình tốt nhất cho bộ dữ liệu thông qua các tiêu chí phổ biến.
Chương 6: Kết luận và kiến nghị
Từ những kết quả nghiên cứu đã giới thiệu tổng quan các vấn đề mà bài báo cáo đặt ra nhằm đưa ra một số khuyến nghị về giải pháp, chính sách và chương trình khuyến mãi phù hợp dựa trên phân tích một số yếu tố có ý nghĩa trong bộ số lệu thu thập được.
Mô tả: Dữ liệu BikeSales là một bộ dữ liệu bảng lấy từ website: https://www.kaggle.com/datasets/mohamedelshraby/bike-sales-datasets-dashboard. Bộ dữ liệu phân tích và đánh giá các yếu tố ảnh hưởng đến mức tiêu thụ xe đạp của một công ty ở Châu Âu chứa 1000 quan sát và trong đó có 13 biến gồm:
library(readxl)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
library(DescTools)
library(epitools)
# *Găn dữ liệu BikeSales cho biến bike*
bike <- read_excel("D:/RStudio/bikesale.xlsx", sheet =1)
# *Mô tả chi tiết kiểu biến số của datasheet BikeSales*
str(bike)
## tibble [1,000 x 13] (S3: tbl_df/tbl/data.frame)
## $ CustomerID : num [1:1000] 12496 24107 14177 24381 25597 ...
## $ MaritalStatus : chr [1:1000] "M" "M" "M" "S" ...
## $ Gender : chr [1:1000] "F" "M" "M" "M" ...
## $ Income$ : num [1:1000] 40000 30000 80000 70000 30000 10000 160000 40000 20000 120000 ...
## $ Children : num [1:1000] 1 3 5 0 0 2 2 1 2 2 ...
## $ Education : chr [1:1000] "Bachelors" "Partial College" "Partial College" "Bachelors" ...
## $ Occupation : chr [1:1000] "Skilled Manual" "Clerical" "Professional" "Professional" ...
## $ HomeOwner : chr [1:1000] "Yes" "Yes" "No" "Yes" ...
## $ Cars : num [1:1000] 0 1 2 1 0 0 4 0 2 1 ...
## $ Commute Distance: chr [1:1000] "0-1 Miles" "0-1 Miles" "2-5 Miles" "5-10 Miles" ...
## $ Region : chr [1:1000] "Europe" "Europe" "Europe" "Pacific" ...
## $ Age Range : chr [1:1000] "Age40-50" "Age40-50" "Age50-60" "Age40-50" ...
## $ Purchased Bike : num [1:1000] 0 0 0 1 1 0 1 1 0 1 ...
# *Gắn tên viết tắt cho các biến để dễ thao tác*
names(bike)
## [1] "CustomerID" "MaritalStatus" "Gender" "Income$"
## [5] "Children" "Education" "Occupation" "HomeOwner"
## [9] "Cars" "Commute Distance" "Region" "Age Range"
## [13] "Purchased Bike"
names(bike) <- c("ID", "MS", "GD", "IC", "CHID", "EDU", "OC", "HO", "CAR", "CD", "RE", "AGE", "PUR")
head(bike)
## # A tibble: 6 x 13
## ID MS GD IC CHID EDU OC HO CAR CD RE AGE PUR
## <dbl> <chr> <chr> <dbl> <dbl> <chr> <chr> <chr> <dbl> <chr> <chr> <chr> <dbl>
## 1 12496 M F 40000 1 Bache~ Skil~ Yes 0 0-1 ~ Euro~ Age4~ 0
## 2 24107 M M 30000 3 Parti~ Cler~ Yes 1 0-1 ~ Euro~ Age4~ 0
## 3 14177 M M 80000 5 Parti~ Prof~ No 2 2-5 ~ Euro~ Age5~ 0
## 4 24381 S M 70000 0 Bache~ Prof~ Yes 1 5-10~ Paci~ Age4~ 1
## 5 25597 S M 30000 0 Bache~ Cler~ No 0 0-1 ~ Euro~ Age3~ 1
## 6 13507 M F 10000 2 Parti~ Manu~ Yes 0 1-2 ~ Euro~ Age4~ 0
# Trích xuất các quan sát của biến HO = Yes và các quan sát của biến CHID = 2 trong đối tượng bike gắn vào với tên bike6
bike1 <- subset(bike, HO == "Yes"& CHID == 2)
dim(bike1)
## [1] 146 13
head (bike1)
## # A tibble: 6 x 13
## ID MS GD IC CHID EDU OC HO CAR CD RE AGE PUR
## <dbl> <chr> <chr> <dbl> <dbl> <chr> <chr> <chr> <dbl> <chr> <chr> <chr> <dbl>
## 1 13507 M F 10000 2 Part~ Manu~ Yes 0 1-2 ~ Euro~ Age4~ 0
## 2 27974 S M 160000 2 High~ Mana~ Yes 4 0-1 ~ Paci~ Age3~ 1
## 3 22155 M M 20000 2 Part~ Cler~ Yes 2 5-10~ Paci~ Age5~ 0
## 4 19280 M M 120000 2 Part~ Manu~ Yes 1 0-1 ~ Euro~ Age3~ 1
## 5 25323 M M 40000 2 Part~ Cler~ Yes 1 1-2 ~ Euro~ Age3~ 1
## 6 20870 S F 10000 2 High~ Manu~ Yes 1 0-1 ~ Euro~ Age3~ 1
# Bảng tần số
table(bike$PUR)
##
## 0 1
## 519 481
## *Hiển thị theo biểu đồ*
library(ggplot2)
bike |> ggplot(aes(x = PUR, y = after_stat(count))) +
geom_bar(fill = 'lightpink') +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'darkblue', vjust = - .5) +labs(x = 'Frequency of Purchase Bike', y = 'Number of customers')
Dựa vào kết quả thống kê của phần mềm phân tích R, ta thấy số khách hàng đống ý mua xe đạp và không mua xe đạp khảo sát từ 1000 người tại một công ty ở châu Âu không có sự chênh lệnh quá nhiều trong đó tỷ lệ khách hàng chấp nhận mua xe chiếm khoảng 51,9% và tỷ lệ khách hàng không mua xe đạp chiếm khoảng 48,1%.
#Bảng summary
summary(bike$IC)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 10000 30000 60000 56360 70000 170000
# Đồ thị
hist (bike$IC, main = "Frequency of Income", col = "lightblue")
Dựa theo kết quả phân tích của phần mềm R tôi thấy được khách hàng có thu nhập cao nhất đến mua xe đạp là 170,000 đô và khách hàng có thu nhập thấp nhất là 10.000 đô; trung bình thu nhập của mỗi khách hàng đến mua xe là 56,360 đô và có 50% số người có thu nhập dưới 60,000 đô đến mua hàng.Thông qua biểu đồ tần số trên có thể thấy rằng phần lớn những người đến mua xe đạp có thu nhập trung bình 1 tháng nằm trong khoảng từ 25,000đô đến 77,000đo. Còn lại những người có thu nhập trung bình từ 100,000 đô/tháng đến mua xe đạp chiếm số ít trong tổng số 1000 khách hàng.
# Bảng summary
summary(bike$CHID)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.000 2.000 1.898 3.000 5.000
# Đồ thị
library(ggplot2)
bike |> ggplot(aes(x = CHID, y = after_stat(count))) +
geom_bar(fill = 'blue') +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'red', vjust = - .5) +labs(x = 'Frequency of Children', y = 'Number of customers')
Dựa vào số liệu thống kê và đồ thị ở trên, ta phân tích được khách hàng có tối đa 5 người con đến mua xe đạp chiếm tỷ lệ thấp nhất là 8,1% và tối thiểu khách hàng chưa có người con nào chiếm cao nhất trong tổng số là 28,1%, trung bình mỗi khách hàng có tầm 2 người con đến mua xe đạp và có 50% số khách hàng có dưới 2 người con đến mua hàng.
#Bảng summary
summary(bike$CAR)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 1.000 1.000 1.442 2.000 4.000
#Đồ thị
bike |> ggplot(aes(x = CAR, y = after_stat(count))) +
geom_bar(fill = 'orange') +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'red', vjust = - .5) +labs(x = 'The number of cars', y = 'Number of customers')
Theo kết quả thống kê từ phần mềm R tôi thấy khách hàng đến mua sản phẩm mà có tối đa 4 chiếc chiếm xe hơi chiếm tỷ lệ thâp nhất chỉ 5,9% và tối thiểu không có chiếc xe hơi nào chiếm 24,7%, trung bình mỗi khách hàng đến mua sản phẩm có tầm 1 chiếc xe hơi và có 50% số khách có dưới 1 chiếc xe hơi đến mua hàng.Ngoài ra số khách đã sở hữu 2 chiếc xe hơi đến mua hàng chiếm cao nhất trong tổng số là 34,2%.
# Bảng tần số
table(bike$MS)/1000*100
##
## M S
## 53.8 46.2
# Đồ thị
pie(table(bike$MS), main= "Histogram of Marital Status", col = rainbow(6))
Qua bảng tần suất và biểu đồ của phần mềm phân tích R về tình trạng hôn nhân của những khách hàng đến mua xe đạp thì tỷ lệ giữa số người đã kết hôn và còn độc thân chênh lệch nhau không nhiều, trong đó khách hàng kết hôn rồi chiếm 53.8% và số người độc thân chiếm 46.2%.
# Bảng tần số
table(bike$GD)/1000*100
##
## F M
## 48.9 51.1
## *Hiển thị theo biểu đồ*
library(ggplot2)
bike |> ggplot(aes(x = GD, y = after_stat(count))) +
geom_bar(fill = 'pink') +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'blue', vjust = - .5) +labs(x = 'Frequency of males and females', y = 'Number of customers')
Theo kết quả thống kê của phần mềm phân tích R, ta thấy số khách hàng nam và nữ đến mua xe đạp không có sự chênh lệnh quá nhiều trong đó tỷ lệ khách hàng nam chiếm khoảng 51% và tỷ lệ khách hàng nữ chiếm khoảng 49%.
# Bảng tần số
table(bike$HO)/1000*100
##
## No Yes
## 31.7 68.3
## *Hiển thị theo biểu đồ*
library(ggplot2)
ggplot(data=bike)+geom_bar(mapping = aes(x=HO,fill=HO))
Theo kết quả phân tích và đồ thị ta thấy những khách hàng đã có nhà sẽ đến mua xe đạp chiếm tỷ lệ gấp đôi số khách còn độc thân đến 68.3%, ngược lại số khách hàng chưa lập gia đình đến mua xe chỉ chiếm khoảng 31.7% trong tổng số 1000 người.
# Bảng tần số
table(bike$EDU)
##
## Bachelors Graduate Degree High School Partial College
## 306 174 179 265
## Partial High School
## 76
## *Hiển thị theo biểu đồ*
bike |> ggplot(aes(x = EDU, y = after_stat(count))) +
geom_bar(fill = 'orange') +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'red', vjust = - .5) +labs(x = 'Frequency of Education', y = 'Number of customers')
Theo kết quả phân tích và đồ thị chúng ta thấy được xu hướng khách hàng có trình độ học vấn là cử nhân đến mua xe đạp chiếm cao nhất trong tổng số 1000 người là 30,6%. Tiếp đến là nhóm khách hàng đang học cao đẳng đến mua xe đứng thứ hai chiếm 26,5%; sau đó là những khách hàng là học sinh trung học và đã tốt nghiệp có tỷ lệ gần như nhau chiếm lần lượt là 17,9% và 17,4%.Ngược lại, Khách hàng học trường trung học tư nhân đến mua xe chỉ chiếm 7,6%.
# Bảng tần số
table(bike$CD)/1000*100
##
## 0-1 Miles 1-2 Miles 10+ Miles 2-5 Miles 5-10 Miles
## 36.6 16.9 11.1 16.2 19.2
## *Hiển thị theo biểu đồ*
bike |> ggplot(aes(x = CD, y = after_stat(count))) +
geom_bar(fill = 'brown') +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'blue', vjust = - .5) +labs(x = 'Frequency of Commute Distance', y = 'Number of customers')
Theo kết quả biểu đồ tần số của phần mềm R, chúng ta thấy xu hướng khách hàng có khoảng cách đi làm ngắn từ 0-1 miles đến mua xe đạp chiếm cao nhất trong tổng số 1000 người là 36,6% và nhiều hơn gần gấp đôi so với nhóm khách hàng đi làm từ 5-10 miles, chiếm khoảng 19,2%. Bên cạnh đó, có thể thấy số khách khoảng cách đi làm từ 1-2 miles và 2-5 miles chiếm tỷ lệ gần như nhau lần lượt là 16,9% và 16,2%.Ngược lại, khách hàng có đi làm xa nhất từ 10 miles trở lên đến mua xe chỉ chiếm 11,1% và thấp nhất trong tổng số.
# Bảng tần số
table(bike$AGE)/1000*100
##
## Age20-30 Age30-40 Age40-50 Age50-60 Age60-70
## 11.0 31.6 29.8 17.6 8.9
## Age71 and above
## 1.1
## *Hiển thị theo biểu đồ*
library(ggplot2)
bike |> ggplot(aes(x = AGE, y = after_stat(count))) +
geom_bar(fill = rainbow(6)) +geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = 'blue', vjust = - .5) +labs(x = 'Frequency of Age Range', y = 'Number of customers')
Theo kết quả phân tích và đồ thị chúng ta thấy được xu hướng khách hàng đến mua xe đạp nằm trong độ tuổi từ 30 đến 40 tuổi chiếm cao nhất trong tổng số 1000 người là 31.6%. Tiếp đến là khách hàng từ 40 đến 60 tuổi đứng thứ hai chiếm 29.8%, sau đó là nhóm khách hàng từ 50 đến 60 tuổi chiếm 17.6%.Ngược lại, Khách hàng nằm trong độ tuổi từ 71 tuổi trở lên đến mua xe chỉ chiếm 1.1%.
Bài nghiên cứu chọn biến định tính làm biến phụ thuộc là biến Purchase Bike nhận hai giá trị là “0” và “1” thể hiện quyết định đồng ý mua xe đạp xác định thông qua 1000 khách hàng quan sát thu nhập được ở một công ty ở Châu Âu để đánh giá phân loại được nhóm khách hàng tiêu thụ xe đạp nhiều nhất, từ đó đưa ra phương án và các chương trình khuyến mãi nhằm đẩy mạnh nhu cầu sử dụng xe đạp.
Nghiên cứu sử dụng biến định lượng làm biến phụ thuộc bao gồm biến Income (Thu nhập trung bình trong 1 tháng), biến Children (số người con) và biến CARS (số xe hơi khách hàng sở hữu) nhằm phân tích hành vi tiêu thụ sản phẩm xe đạp bằng việc tìm hiểu theo nhiều khía cạnh như:
• Nhóm khách hàng có thu nhập trung bình 1 tháng trong khoảng bao nhiêu đô sẽ có xu hướng đến mua xe đạp thường xuyên nhất?
• Một khách hàng có càng nhiều con thì sẽ đến mua xe đạp nhiều hơn so với chưa có người con nào không?
• Số xe ô tô khách hàng sở hữu có ảnh hưởng đến nhu cầu sử dụng và quyết định mua xe đạp của khách không?
# Bảng tần số
edu.gd <- table(bike$GD,bike$EDU)
table(bike$GD,bike$EDU)/1000*100
##
## Bachelors Graduate Degree High School Partial College Partial High School
## F 14.6 9.3 8.0 13.2 3.8
## M 16.0 8.1 9.9 13.3 3.8
addmargins(edu.gd)
##
## Bachelors Graduate Degree High School Partial College Partial High School
## F 146 93 80 132 38
## M 160 81 99 133 38
## Sum 306 174 179 265 76
##
## Sum
## F 489
## M 511
## Sum 1000
## *Hiển thị theo biểu đồ*
library(ggplot2)
bike |> ggplot(aes(x= EDU,y=after_stat(count))) + geom_bar(fill="orange") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "brown", vjust = - .5) + facet_grid(. ~GD) + labs(x = "Gender",y = "Number of customers")
Dựa theo kết quả bảng thông kê và đồ thị của phần mềm R, chúng ta thấy số khách hàng là cử nhân đến mua xe đạp chiếm tỷ lệ nhiều nhất đến 30,6% trong tổng 1000 người, đồng thời chênh lệch giữa số khách hàng nam và nữ là cử nhân đến mua xe không nhiều. Tuy nhiên số khách hàng học trung học một phần đến mua xe chiếm số ít nhất chỉ 76 người , trong đó số khách hàng nam và nữ đến mua xe trong nhóm này là tương đương nhau.
# Bảng tần số
cd.re <- table(bike$CD,bike$RE)
table(bike$RE,bike$CD)/1000*100
##
## 0-1 Miles 1-2 Miles 10+ Miles 2-5 Miles 5-10 Miles
## Europe 18.8 3.8 1.8 4.0 1.6
## North America 12.6 10.8 6.2 10.3 10.9
## Pacific 5.2 2.3 3.1 1.9 6.7
addmargins(cd.re)
##
## Europe North America Pacific Sum
## 0-1 Miles 188 126 52 366
## 1-2 Miles 38 108 23 169
## 10+ Miles 18 62 31 111
## 2-5 Miles 40 103 19 162
## 5-10 Miles 16 109 67 192
## Sum 300 508 192 1000
## *Hiển thị theo biểu đồ*
library(ggplot2)
bike |> ggplot(aes(x= RE,y=after_stat(count))) + geom_bar(fill="purple") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "brown", vjust = - .5) + facet_grid(. ~CD) + labs(x = "Commute Distance",y = "Number of customers")
Dựa theo kết quả bảng thông kê và đồ thị của phần mềm R, chúng ta thấy số khách hàng sống ở khu vực Bắc Mỹ đến mua xe đạp chiếm tỷ lệ nhiều nhất đến 50,8% trong 3 khu vực, trong đó tỷ lệ của nhóm khách này cao gấp 1,6 lần số khách hàng sống ở vùng châu Âu và gấp đến 2,6 lần nhóm khách hàng sống tại khu vực Thái Bình Dương đến mua sản phẩm. Đồng thời có thể thấy số khách hàng sống tại Bắc Mỹ đi làm trong khoảng từ 1-2 miles (108 người), 2-5 miles (103 người) và 5-10 miles (109 người) đến mua xe đạp có tỷ lệ chênh lệnh không nhiều. Tuy nhiên khách hàng ở khu vực này thường đi làm từ 10 miles trở lên đến mua xe đạp chiếm tỷ lệ thấp nhất trong Bắc Mỹ chỉ 6,2% nhưng cao nhất so với nhóm khách đi làm từ 10 miles ở khu vực châU Âu (1,8%) và Thái Bình Dương (3,1%).
Với dữ liệu gốc, biến thu nhập trung bình (Income) là biến định lượng nhận các giá trị từ 10,000 đô/tháng đến 170,000 đô/tháng. Dựa vào phần mềm phân tích R, tôi sẽ thực hiện mã hoá chia dữ liêu thành 3 khoảng với thu nhập thấp từ 10,000đô/tháng đến 30,000 đô/tháng, thu nhập trung bình nằm trong khoảng từ 30,000 đô/tháng đến 10,000 đô/tháng và thu nhập cao từ 10,000 đô/tháng trở lên.Kết quả thu được có 282 khách có thu nhập thấp, 642 người có thu nhập trung bình và còn lại 76 khách hàng có thu nhập cao đến mua xe đạp tại cửa hàng.
df<- cut(x = bike$IC,
breaks = c(-Inf, 30000, 100000, Inf), # Lấy khoảng dữ liệu từ 30000-100000
labels = c("Lower", "Average", "High"), # Các mức tuổi
right = TRUE) # Cho phép lấy khoảng đóng bên phải
table(df)
## df
## Lower Average High
## 282 642 76
#Lập bảng tần số giữa biến Income (thu nhập) và biến Gender (Giới tính) tới quyết định mua xe đạp:
in.sex <- table(bike$GD,df)
addmargins(in.sex)
## df
## Lower Average High Sum
## F 150 306 33 489
## M 132 336 43 511
## Sum 282 642 76 1000
## *Hiển thị theo biểu đồ*
barplot(in.sex, beside = TRUE, xlab = "Income Range",main = "Number of males and females in each income group")
bike |> ggplot(aes(x= df,y=after_stat(count))) + geom_bar(fill="brown") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "blue", vjust = - .5) + facet_grid(. ~GD) + labs(x = "Gender",y = "Number of customers")
Theo kết quả phân tích và đồ thị chúng ta thấy được xu hướng khách hàng đến mua xe là cả nam lẫn nữ có thu nhập trung bình nằm trong khoảng từ 30.000 đô/tháng đến 100.000 đô/tháng chiếm tỷ lệ cao nhất đến 64,2%, trong đó số khách hàng là nam đến mua có mức thu nhập này (336 người) chiếm cao gấp 2,5 lần số khách nam có thu nhập thấp dưới 30.000 đô/tháng (132 người) và gấp gần 8 lần khách hàng nam có thu nhập cao trên 100.000 đô/tháng (43 người).
Tương tự với nhóm khách hàng là nữ có thu nhập thấp (150 người) đến mua xe chiếm tỷ lệ ít hơn 2 lần số khách hàng nữ có thu nhập trung bình (306 người), nhưng nhiều hơn đến 4,5 lần số khách nữ có thu nhập cao (33 người) mua xe đạp.
# Bảng tần số
in.re <- table(df, bike$RE)
addmargins(in.re)
##
## df Europe North America Pacific Sum
## Lower 183 49 50 282
## Average 92 426 124 642
## High 25 33 18 76
## Sum 300 508 192 1000
## *Hiển thị theo biểu đồ*
bike |> ggplot(aes(x= df, y=after_stat(count))) + geom_bar(fill="blue") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "brown", vjust = - .5) + facet_grid(. ~RE) + labs(x = "Region",y = "Number of customers")
Dựa theo kết quả bảng thông kê và đồ thị của phần mềm R, chứng ta thấy được nhóm khách hàng có thu nhập trung bình từ 30,000 đô/tháng đến 100,000 đô/tháng sống ở khu vực Bắc Mỹ chiếm tỷ lệ cao nhất đến 42,6% trong 3 vùng; trong đó nhiều hơn khu vực châu Âu đến 334 người và gấp gần 3,6 lần khu vực Thái Bình Dương (124 người). Tuy nhiên nhóm khách hàng có thu nhập thấp từ 30,000 đô/tháng ở vùng châu Âu (183 người) đến mua xe đạp lại chiếm tỷ lệ cao hơn rất nhiều so với các vùng ở Bắc Mỹ và Thái Bình Dương chỉ chiếm tỷ lệ thấp gần như nhau gần 5%. Bên cạnh đó, đa số những người có thu nhập cao từ 100,000 đô/ tháng trở lên ở cả 3 khu vực đều có tỷ lệ rất thấp.
#1.Thống kê mô tả cho 2 biến giới tính và biến tình trạng sở hữu nhà của những khách hàng đến mua xe đạp.
gd.how <- table(bike$GD,bike$HO)
addmargins(gd.how)
##
## No Yes Sum
## F 157 332 489
## M 160 351 511
## Sum 317 683 1000
## *Hiển thị theo biểu đồ*
barplot(gd.how, beside = TRUE, xlab = "Homeowner group",main = "Number of males and females in each homeowner group")
bike |> ggplot(aes(x= HO,y=after_stat(count))) + geom_bar(fill="lightblue") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "brown", vjust = - .5) + facet_grid(. ~GD) + labs(x = "Gender",y = "Number of customers")
Theo kết quả tính toán và đồ thị của phần mềm R, chúng ta thấy xu hướng khách hàng sở hữu nhà đến mua xe đạp chiếm tỷ lệ rất cao đến 61,3% trong tổng số 1000 người, trong đó số khách hàng nữ đã có nhà đến mua xe đạp (332 người) cao gấp 2 lần số khách hàng nữ chưa có nhà (157 người), tương tự số khách nữ chưa có nhà đến mua xe chiếm 15,7% ít hơn đến 2 lần khách hàng nữ đã sở hữu nhà chiếm 33,2%. Đồng thời tỷ lệ chênh lệch giữa số khách nữ (332 người) và khách nam (351 người) đã có nhà đến mua xe đạp cũng không quá nhiều.
Rủi ro tương đối (Risk Ratio) là một chỉ số quan trọng được sử dụng để đánh giá mối quan hệ giữa một yếu tố nguy cơ và một kết quả, được biểu thị dưới dạng số.Ký hiệu πi là tỷ lệ “thành công” của biến phụ thuộc (response variable) tương ứng với từng biểu hiện của biến độc lập. Từ bảng tần xuất, chúng ta tính π1/π2, phân số này gọi là Rủi ro tương đối (Relative risk) giữa 2 biểu hiện khác nhau của biến phụ thuộc.
RR= π1/π2
Nếu RR > 1 (hay π1 > π2), điều đó có nghĩa là yếu tố nguy cơ làm tăng khả năng mắc bệnh. Nếu RR = 1 (tức π1 = π2 ), điều đó có nghĩa không có mối liên hệ nào giữa yếu tố nguy cơ và khả năng mắc bệnh. Nếu RR < 1 (tức π1 < π2), điều đó có nghĩa là yếu tố nguy cơ làm giảm khả năng mắc bệnh.
# Tính Relative Risk giữa 2 biến Gender và HomeOwner
library(epitools)
riskratio(gd.how)
## $data
##
## No Yes Total
## F 157 332 489
## M 160 351 511
## Total 317 683 1000
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## F 1.000000 NA NA
## M 1.011712 0.9297268 1.100927
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.7874263 0.8384272 0.7870506
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Thông qua kết quả phân tích của phần mềm R cho thấy với độ tin cậy 95%, xác suất số khách nam đã có nhà đến mua xe đạp gấp 1,012 lần so với khách nữ đã có nhà.Từ đó cho thấy gần như không có sự chênh lệch nhiều giữa việc khách nam hay nữ đã sở hữu nhà đến mua xe đạp.
Tỷ lệ chênh (OR) là một chỉ số quan trọng được sử dụng để đo cường độ của mối quan hệ giữa hai biến phân loại, được biểu thị dưới dạng số và là tỷ số của hai xác suất. Nếu gọi xác suất “thành công” của biểu hiện thứ i của biến độc lập là πi thì chúng ta kí hiệu tỷ lệ cược (odd) của biểu hiện này là oddi và được định nghĩa như sau:
oddi=πi/ 1−πi
Như vậy, nếu odd > 1, điều đó có nghĩa là khả năng mắc bệnh cao hơn khả năng không mắc bệnh. Nếu odd = 1, điều đó có nghĩa là biến phân loại đầu tiên không liên quan đến kết quả. Nếu odd < 1, điều đó có nghĩa là khả năng mắc bệnh thấp hơn khả năng không mắc bệnh.Tỷ lệ chênh của biểu hiện thứ i và biểu hiện thứ j được kí hiệu là OR và được định nghĩa:
OR =oddi/oddj= (πi/1−πi)/(πj/1−πj)=[πi/(1−πj)]/[πj(1−πi)]
# Tính Odd Ratio giữa 2 biến Gender và HomeOwner
oddsratio(gd.how)
## $data
##
## No Yes Total
## F 157 332 489
## M 160 351 511
## Total 317 683 1000
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## F 1.000000 NA NA
## M 1.037372 0.7944098 1.354607
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.7874263 0.8384272 0.7870506
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Dựa vào kết quả phân tích của phần mềm R cho thấy với độ tin cậy 95%, việc đã sở hữu nhà của khách hàng nam và khách hàng nữ đến để mua xe đạp là gần như nhau, chênh lệch gấp 1,037 lần.
Kiểm định chi bình phương (Chi-Square) cho hai biến giới tình và tình trạng có nhà.
Đặt giả thuyết:
Ho: Biến giới tính và biến tình trạng sở hữu nhà là độc lập
H1: Biến giới tính và biến tình trạng sở hữu nhà không độc lậP
chisq.test(gd.how)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: gd.how
## X-squared = 0.040871, df = 1, p-value = 0.8398
Với p_value = 0,8398 > 5% vậy tại mức ý nghĩa 5%, kết quả này cho chúng ta thấy rằng: Chưa đủ cơ sở để nói rằng giới tính khách hàng có liên quan tới việc sở hữu nhà.
#2.Thống kê mô tả cho 2 biến tình trạng hôn nhân và biến tình trạng sở hữu nhà của những khách hàng đến mua xe đạp.
ms.how <- table(bike$MS,bike$HO)
addmargins(ms.how)
##
## No Yes Sum
## M 97 441 538
## S 220 242 462
## Sum 317 683 1000
## *Hiển thị theo biểu đồ*
barplot(ms.how, beside = TRUE, xlab = "Homeowner group",main = "Number of marriage and single in each homeowner group")
bike |> ggplot(aes(x= HO,y=after_stat(count))) + geom_bar(fill="green") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "blue", vjust = - .5) + facet_grid(. ~MS) + labs(x = "Marital Status",y = "Number of customers")
Theo kết quả tính toán của phần mềm R, chúng ta thấy xu hướng khách hàng đã kết hôn và sở hữu nhà đến mua xe đạp (441 người) chiếm tỷ lệ rất cao đến 44,1% trong tổng 1000 người; trong đó nhóm khách hàng này cao gấp 4 lần so với những khách đã kết hôn mà chưa có nhà (97 người), đồng thời nhiều hơn đến gấp đôi số khách hàng độc thân và đã có nhà đến mua xe đạp (242 người). Ngoài ra, chúng ta còn thấy chênh lệch giữa những người còn độc thân và chưa có nhà (220 người) đến mua xe đạp so với những người kết hôn rồi mà chưa sở hữu nhà (97 người) cao hơn rất nhiều, gấp đến 2,3 lần.
library(epitools)
riskratio(ms.how,rev="r")
## $data
##
## No Yes Total
## S 220 242 462
## M 97 441 538
## Total 317 683 1000
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## S 1.000000 NA NA
## M 1.564887 1.422286 1.721785
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## S NA NA NA
## M 0 7.016699e-24 1.177371e-23
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Thông qua kết quả phân tích của phần mềm R cho thấy với độ tin cậy 95%, tỷ lệ số khách hàng đã kết hôn và có nhà đến mua xe đạp cao gấp 1,565 lần tỷ lệ khách còn độc thân và đã có nhà. Từ đó cho thấy xu hướng những khách chưa kết hôn và đã sở hữu nhà đến mua xe đạp rất ít.
oddsratio(ms.how,rev="r")
## $data
##
## No Yes Total
## S 220 242 462
## M 97 441 538
## Total 317 683 1000
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## S 1.000000 NA NA
## M 4.123669 3.106477 5.506312
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## S NA NA NA
## M 0 7.016699e-24 1.177371e-23
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Dựa vào kết quả phân tích của phần mềm R cho thấy với độ tin cậy 95%, việc đã sở hữu nhà của những khách hàng đã kết hôn đến mua xe đạp chênh lệch rất nhiều so với những khách còn độc thân , tỷ lệ chênh lệch gấp đến 4,12 lần.
Kiểm định chi bình phương (Chi-Square) cho hai biến giới tình và tình trạng có nhà.
Đặt giả thuyết:
Ho: Biến tình trạng hôn nhân và biến tình trạng sở hữu nhà là độc lập
H1: Biến tình trạng hôn nhân và biến tình trạng sở hữu nhà không độc lập
chisq.test(ms.how)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: ms.how
## X-squared = 99.149, df = 1, p-value < 2.2e-16
Với p_value < 2.2e-16 vậy ta bác bỏ Ho tại mức ý nghĩa 5%. Kết quả kiểm định này cho chúng ta thấy giữa việc sở hữu nhà và tình trạng hôn nhân là độc lập với nhau. Đồng nghĩa với việc cho thấy biến tình trạng nhà ở và tình trạng hôn nhân có mối quan hệ liên kết với nhau khi đánh giá khách hàng tiêu thụ xe đạp.
# Thống kê mô tả cho 2 biến quyết định mua xe đạp và tình trạng sở hữu nhà của khách hàng.
pur.how <- table(bike$HO,bike$PUR)
addmargins(pur.how)
##
## 0 1 Sum
## No 161 156 317
## Yes 358 325 683
## Sum 519 481 1000
## *Hiển thị theo biểu đồ*
bike |> ggplot(aes(x= PUR,y=after_stat(count))) + geom_bar(fill="lightgreen") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "darkblue", vjust = - .5) + facet_grid(. ~HO) + labs(x = "HomeOwner",y = "Number of customers")
Theo kết quả tính toán của phần mềm R, chúng ta thấy xu hướng khách hàng đã sở hữu nhà đồng ý mua xe đạp (325 người) nhiều gấp đôi số khách hàng chưa có nhà (156 người), chiếm tỷ lệ đến 44,1% trong tổng 1000 người. Tuy nhiên nhóm khách hàng đã có nhà không đồng ý mua xe cũng cao hơn rất nhiều so với những người chưa sở hữu nhà, chiếm lần lượt là 32,5% và 15,6%.
library(epitools)
riskratio(pur.how)
## $data
##
## 0 1 Total
## No 161 156 317
## Yes 358 325 683
## Total 519 481 1000
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## No 1.0000000 NA NA
## Yes 0.9669351 0.8433448 1.108637
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## No NA NA NA
## Yes 0.6324469 0.6347529 0.6317966
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Thông qua kết quả phân tích của phần mềm R cho thấy với độ tin cậy 95%, tỷ lệ số khách hàng đã sở hữu nhà chấp nhận mua xe đạp ít hơn 0,9969 so với nhóm khách chưa có nhà đồng ý mua xe. nhà.Từ đó cho thấy gần như không có sự chênh lệch nhiều giữa việc khách đã có nhà hay chưa có nhà đồng ý mua xe đạp.
oddsratio(pur.how)
## $data
##
## 0 1 Total
## No 161 156 317
## Yes 358 325 683
## Total 519 481 1000
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## No 1.0000000 NA NA
## Yes 0.9369736 0.7175076 1.223648
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## No NA NA NA
## Yes 0.6324469 0.6347529 0.6317966
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Dựa vào kết quả phân tích của phần mềm R cho thấy với độ tin cậy 95%, việc đã sở hữu nhà hay chưa có nhà của những khách hàng đồng ý mua xe đạp là gần như nhau, chênh lệch gấp 0,9367.
Kiểm định chi bình phương (Chi-Square) cho hai biến quyết định mua xe và tình trạng có nhà.
Đặt giả thuyết:
Ho: Biến biến quyết định mua xe và biến tình trạng sở hữu nhà là độc lập
H1: Biến biến quyết định mua xe và biến tình trạng sở hữu nhà không độc lập
chisq.test(pur.how)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: pur.how
## X-squared = 0.16908, df = 1, p-value = 0.6809
Với p_value = 0,6809 > 5% vậy tại mức ý nghĩa 5%, kết quả này cho chúng ta thấy rằng: Chưa đủ cơ sở để nói rằng việc sở hữu nhà có liên quan đến quyết định mua xe đạp của khách hàng.
# Thống kê mô tả cho 2 biến quyết định mua xe đạp và giới tính của khách hàng.
pur.gd <- table(bike$GD,bike$PUR)
addmargins(pur.gd)
##
## 0 1 Sum
## F 250 239 489
## M 269 242 511
## Sum 519 481 1000
## *Hiển thị theo biểu đồ*
bike |> ggplot(aes(x= PUR,y=after_stat(count))) + geom_bar(fill="blue") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "red", vjust = - .5) + facet_grid(. ~GD) + labs(x = "Gender",y = "Number of customers")
Theo kết quả tính toán của phần mềm R, chúng ta thấy hầu như không có sự chênh lệch nhiều giữa việc đồng ý mua xe đạp đạp và không mua xe của nhóm khách hàng nam và nữ, trong đó số khách hàng nam không mua xe chiếm tỷ lệ cao nhất trong tổng số 1000 người là 26,9%,
library(epitools)
riskratio(pur.gd)
## $data
##
## 0 1 Total
## F 250 239 489
## M 269 242 511
## Total 519 481 1000
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## F 1.0000000 NA NA
## M 0.9689591 0.8519126 1.102087
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.6319296 0.6577936 0.6312341
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Thông qua kết quả phân tích của phần mềm R cho thấy với độ tin cậy 95%, tỷ lệ số khách hàng là nam chấp nhận mua xe đạp ít hơn 0,9689 so với nhóm khách nữ đồng ý mua xe. Từ đó cho thấy gần như không có sự chênh lệch nhiều giữa việc khách hàng là nam hay nữ đồng ý mua xe đạp.
oddsratio(pur.gd)
## $data
##
## 0 1 Total
## F 250 239 489
## M 269 242 511
## Total 519 481 1000
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## F 1.0000000 NA NA
## M 0.9411094 0.7340147 1.206441
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.6319296 0.6577936 0.6312341
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Dựa vào kết quả phân tích của phần mềm R cho thấy với độ tin cậy 95%, việc khách hàng là nam hay nữ đến cửa hàng đồng ý mua xe đạp là gần như nhau, chênh lệch 0,9367.
Kiểm định chi bình phương (Chi-Square) cho hai biến quyết định mua xe và giới tính của khách hàng.
Đặt giả thuyết:
Ho: Biến biến quyết định mua xe và biến giới tính là độc lập
H1: Biến biến quyết định mua xe và biến giới tính không độc lập
chisq.test(pur.gd)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: pur.gd
## X-squared = 0.17363, df = 1, p-value = 0.6769
Với p_value = 0,6769 > 5% . Tại mức ý nghĩa 5%, kết quả này cho chúng ta thấy rằng: Chưa đủ cơ sở để nói rằng việc giới tính của khách hàng có liên quan đến quyết định mua xe đạp của họ.
# Thống kê mô tả cho 2 biến quyết định mua xe đạp và tình trạng hôn nhân của khách hàng.
pur.ms <- table(bike$MS,bike$PUR)
addmargins(pur.ms)
##
## 0 1 Sum
## M 307 231 538
## S 212 250 462
## Sum 519 481 1000
## *Hiển thị theo biểu đồ*
bike |> ggplot(aes(x= PUR,y=after_stat(count))) + geom_bar(fill="brown") + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = "count", color = "darkblue", vjust = - .5) + facet_grid(. ~MS) + labs(x = "Marital Status",y = "Number of customers")
Theo kết quả tính toán của phần mềm R, chúng ta thấy xu hướng khách hàng đã kết hôn không mua xe đạp (307 người) chiếm tỷ lệ cao nhất trong tổng số đến 30,7% và nhiều hơn gấp 1,5 lần số khách hàng còn độc thân không mua xe (212 người). Chênh lệnh giữa nhóm khách hàng kết hôn rồi và độc thân đồng ý mua xe đạp không nhiều, tương đối ít lần lượt chiếm tỷ lệ là 23,1% và 25%.
library(epitools)
riskratio(pur.ms, rev="r")
## $data
##
## 0 1 Total
## S 212 250 462
## M 307 231 538
## Total 519 481 1000
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## S 1.0000000 NA NA
## M 0.7934721 0.6977137 0.902373
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## S NA NA NA
## M 0.0004281512 0.0004775722 0.0004212365
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Thông qua kết quả phân tích của phần mềm R cho thấy với độ tin cậy 95%, tỷ lệ số khách hàng đã kết hôn đã kết hôn đồng ý mua xe đạp ít hơn 0,7935 so với nhóm khách hàng còn độc thân chấp nhận mua xe.
oddsratio(pur.ms)
## $data
##
## 0 1 Total
## M 307 231 538
## S 212 250 462
## Total 519 481 1000
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## M 1.000000 NA NA
## S 1.566276 1.219863 2.013386
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## M NA NA NA
## S 0.0004281512 0.0004775722 0.0004212365
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Thông qua kết quả phân tích của phần mềm R cho thấy với độ tin cậy 95%, việc đã kết hôn hay còn độc thân của những khách hàng đồng ý mua xe đạp chênh lệch khá nhiều, tỷ lệ chênh lệnh đến 1,2603 lần.
Kiểm định chi bình phương (Chi-Square) cho hai biến quyết định mua xe và tình trạng hôn nhân của khách hàng
Đặt giả thuyết:
Ho: Biến biến quyết định mua xe và biến tình trạng hôn nhân là độc lập
H1: Biến biến quyết định mua xe và biến tình trạng hôn nhân không độc lập
chisq.test(pur.ms)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: pur.ms
## X-squared = 11.992, df = 1, p-value = 0.0005343
Với p_value = 0,00053 < 5% vậy ta bác bỏ Ho tại mức ý nghĩa 5%. Kết quả kiểm định này cho chúng ta thấy giữa quyết định mua xe và tình trạng hôn nhân là độc lập với nhau. Đồng nghĩa với việc cho thấy biến quyết định mua xe và tình trạng hôn nhân có mối quan hệ liên kết với nhau khi đánh giá khách hàng mua xe tại cửa hàng.
1. Ước lượng tỷ lệ khách hàng thu nhập nhiều hơn 40.000đô/tháng (Income) đồng thời kiểm định xem tỷ lệ (%) khách có thu nhập nhiều hơn 40.000đô/tháng có phải là 65% không ?
a.Đặt giả thuyết:
Ho: p = 0.65
H1: p # 0.65
inc <- bike[bike$IC > 40000,]
prop.test(length(inc$IC), length(bike$IC), p = 0.65)
##
## 1-sample proportions test with continuity correction
##
## data: length(inc$IC) out of length(bike$IC), null probability 0.65
## X-squared = 32.133, df = 1, p-value = 1.44e-08
## alternative hypothesis: true p is not equal to 0.65
## 95 percent confidence interval:
## 0.5325761 0.5949261
## sample estimates:
## p
## 0.564
Trong kết quả phần mềm R, prop.test ước tính tỉ lệ khách hàng có thu nhập trên 40.000đô/tháng 0.564 (tức 56,4%) vậy ta bác bỏ Ho và với khoảng tin cậy 95% là 0,5326 đến 0,5949. Giá trị khi chi bình phương là 32,133; với trị số p = 1.44e-08. Như vậy, nghiên cứu này cho thấy tỷ lệ khách hàng có thu nhập trên 40.000đô/tháng đến mua xe thấp hơn 65%.
Thực hiện bài toán kiểm định giả thuyết sự bằng nhau về tỷ lệ khách có thu nhập trên 40.000đô/tháng của 2 tổng thể giới tính (nam và nữ):
Đặt giả thuyết
Ho: p1 = p2
H1: p1 # p2
icm <- bike[bike$GD == 'M',]
icf <- bike[bike$GD == 'F',]
icm3 <- icm[icm$IC > 40000,]
icf3 <- icf[icf$IC > 40000,]
a <- c(nrow(icm), nrow(icf))
b <- c(nrow(icm3), nrow(icf3))
prop.test(b,a)
##
## 2-sample test for equality of proportions with continuity correction
##
## data: b out of a
## X-squared = 2.0766, df = 1, p-value = 0.1496
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.01622552 0.11063921
## sample estimates:
## prop 1 prop 2
## 0.5870841 0.5398773
Trong kết quả kiểm định trên, prop.test ước tính tỷ lệ khách nam giới có thu nhập 40.000đô/tháng đến mua xe là 0,5871 và ước tính tỉ lệ khách nữ giới có thu nhập 40.000đô/tháng là 0,5399. Vậy ta bác bỏ Ho với độ tin cậy 95%. Đồng thời phân tích còn cho thấy với mức ý nghĩa 5%, tỷ lệ nam giới có thu nhập trên 40.000đô/tháng đến mua xe cao hơn 14,96%.
2. Ước lượng tỷ lệ khách hàng có ít hơn 3 người con đến mua xe đạp đồng thời kiểm định xem tỷ lệ (%) khách có ít hơn 3 đứa con có phải là 45% không ?
a.Đặt giả thuyết:
Ho: p = 0.45
H1: p # 0.45
inchi <- bike[bike$CHID < 3,]
prop.test(length(inchi$CHID), length(bike$CHID), p = 0.45)
##
## 1-sample proportions test with continuity correction
##
## data: length(inchi$CHID) out of length(bike$CHID), null probability 0.45
## X-squared = 175.65, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.45
## 95 percent confidence interval:
## 0.6285520 0.6882104
## sample estimates:
## p
## 0.659
Trong kết quả tính toán của phần mềm R, prop.test ước tính tỉ lệ khách hàng có ít hơn 3 người con đến mua xe đạp là 0.659 (tức 65,9%) vậy ta bác bỏ Ho và với khoảng tin cậy 95% là 0,6286 đến 0,6882. Giá trị khi chi bình phương là 175,65; với trị số p < 2.2e-16. Như vậy, nghiên cứu này cho thấy tỷ lệ khách hàng có 3 người con trở xuống đến mua xe nhiều hơn 45%.
Thực hiện bài toán kiểm định giả thuyết sự bằng nhau về tỷ lệ khách có ít hơn 3 người con của 2 tổng thể khách đã sở hữu nhà và chưa có nhà:
Đặt giả thuyết
Ho: p1 = p2
H1: p1 # p2
chiy <- bike[bike$HO == 'Yes',]
chin <- bike[bike$HO == 'No',]
chiy3 <- chiy[chiy$CHID < 3,]
chin3 <- chin[chin$CHID < 3,]
c <- c(nrow(chiy), nrow(chin))
d <- c(nrow(chiy3), nrow(chin3))
prop.test(d,c)
##
## 2-sample test for equality of proportions with continuity correction
##
## data: d out of c
## X-squared = 9.5867, df = 1, p-value = 0.00196
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.16529145 -0.03882751
## sample estimates:
## prop 1 prop 2
## 0.6266471 0.7287066
Trong kết quả kiểm định trên, prop.test ước tính tỷ lệ khách đã sở hữu và có ít hơn 3 người con đến mua xe là 0,6266; tỷ lệ khách chưa có nhà và có ít hơn 3 người con là 0,7287. Vậy ta bác bỏ Ho với độ tin cậy 95%. Đồng thời phân tích còn cho thấy với mức ý nghĩa 5%, tỷ lệ khách hàng đã có nhà và có ít hơn 3 người con đến mua xe cao hơn 14,96%.
3. Ước lượng tỷ lệ khách hàng sở hữu ít hơn 3 chiếc xe hơi (CAR) đến mua xe đạp đồng thời kiểm định xem tỷ lệ (%) khách có ít hơn 3 chiếc có phải là 75% không ?
Ho: p = 0.75
H1: p # 0.75
ca <- bike[bike$CAR < 3,]
prop.test(length(ca$CAR), length(bike$CAR), p = 0.75)
##
## 1-sample proportions test with continuity correction
##
## data: length(ca$CAR) out of length(bike$CAR), null probability 0.75
## X-squared = 59.361, df = 1, p-value = 1.312e-14
## alternative hypothesis: true p is not equal to 0.75
## 95 percent confidence interval:
## 0.8323471 0.8768659
## sample estimates:
## p
## 0.856
Trong kết quả kiểm định trên, prop.test ước tính tỉ lệ khách hàng sở hữu dưới 3 chiếc xe hơi đến mua sản phẩm chiếm đến 0.856 (tức 85.6%) vậy ta bác bỏ Ho và với khoảng tin cậy 95% nằm trong khoảng từ 0,8323 đến 0,8769. Giá trị khi bình phương là 59.361, với trị số p = 1.312e-14. Như vậy, nghiên cứu này cho thấy tỷ lệ khách hàng sở hữu dưới 3 chiếc đến mua sản phẩm cao hơn 75%.
Mô hình hồi quy được chia làm 2 nhóm:
Mô hình hồi quy cổ điển:
μi≡E[yi]=β0+β1x1i+⋯+βkxkiĐể mô hình hồi quy cổ điển phải thỏa mãn 3 điều kiện sau:
Linearity of the association between predictors and outcome variable.
Gaussian distribution of responses.
constant variance of response distribution.
Mô hình hồi quy tổng quát:
μi=g−1(β0+β1x1i+⋯+βkxki)Hoặc
g(μi)=β0+β1x1i+⋯+βkxki
Trong mô hình này hàm g(.) được gọi là hàm liên kết (link function) và g(.) phải là hàm đơn điệu.
Trong một mô hình hồi quy tuyến tính tổng quát sẽ có 3 thành phần:
Thành phần hệ thống (systematic component): Là thành tổ hợp tuyến tính của các biến độc lập.
Thành phần ngẫu nhiên (random component): Là phân phối xác suất của biến phụ thuộc (dependent/response variable).
Hàm liên kết (link function).
Phân Phối Poisson - Poisson Distribution: Biến ngẫu nhiên X có phân phối Poisson là biến ngẫu nhiên dùng để mô tả cho số lần xảy ra của một sự việc/biến cố (event) mà chúng ta quan tâm xảy ra trong một khoảng thời gian hoặc không gian cho trước. Xác suất để biến ngẫu nhiên này nhận một giá trị cụ thể được tính bằng công thức:
P(X=k)= (e−λ*λk)k!
Phân phối này dùng để đo xác xuất của sự kiện rời rạc xảy ra nhiều lần tại thời điểm ngẫu nhiên, trong một khoảng thời gian nhất định. Chẳng hạn như số lần kiểm tra sách thư viện mỗi giờ. Nó được đặc trưng bởi một tham số duy nhất là λ (lambda), đại diện cho tỷ lệ trung bình của sự kiện. Xác suất để đoàn tàu khởi hành đúng giờ là 98,2%. Mô phỏng xác suất để 1000 chuyến tàu có 995 chuyến tàu khởi hành đúng thời gian.
Mô phỏng mẫu: Ta có: lambda= n.p= 1000.0.018=18
ct <- rpois(1000, lambda = 18)
Các đặc trưng đo lường:
summary(ct)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.00 15.00 18.00 17.87 20.00 30.00
Đồ thị:
hist(ct,main="Poisson Distributrion", xlab="Tau khoi hanh dung gio")
Hồi quy Poisson có thể hồi quy cho: - Dữ liệu đếm (count data).
Dữ liệu dạng rate (rate data).
Tần số trong bảng ngẫu nhiên (contigency table).
Lưu ý rằng các loại dữ liệu này là dữ liệu có phân phối Poisson hoặc có liên quan đến phân phối Poisson. Ví dụ sau ta sẽ chạy mô hình hồi quy Poisson cho bộ dữ liệu về cua móng ngựa. Mô hình này sẽ thể hiện số con cua đực trung bình (count data) bị thu hút bởi một con cua cái thông qua một số đặc điểm của con cua cái.
ds <- read_excel("D:/RStudio/Crab.xlsx", sheet =1)
model <- glm(data = ds, formula = satell ~ width + weight, family = poisson(link = 'log'))
summary(model)
##
## Call:
## glm(formula = satell ~ width + weight, family = poisson(link = "log"),
## data = ds)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.2952111 0.8988960 -1.441 0.14962
## width 0.0460765 0.0467497 0.986 0.32433
## weight 0.0004470 0.0001586 2.818 0.00483 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for poisson family taken to be 1)
##
## Null deviance: 632.79 on 172 degrees of freedom
## Residual deviance: 559.90 on 170 degrees of freedom
## AIC: 921.2
##
## Number of Fisher Scoring iterations: 6
Dựa vào kết quả phân tích của phần mềm R, ta có hàm hồi quy logit :
log (satell) = -1,295211 + 0,0461.Width + 0,0004. Weight
Phân phối nhị thức - Binomial distribution: Biến ngẫu nhiên X có phân phối nhị thức là biến ngẫu nhiên dùng để mô tả cho số lần thành công của một dãy những sự việc (biến cố) có những tính chất sau:
Dãy gồm n sự việc độc lập nhau.
Xác suất thành công là bằng nhau và bằng p cho từng sự việc.
Khi đó xác suất để X nhận một giá trị cụ thể là:
P(X=k)=Ckn*p^k(1−p)^(n−k)
Đây là một dạng phân phối rời rạc thường dùng trong thống kê, ngược lại của các dạng phân phối liên tục như phân phối chuẩn, thể hiện xác suất để x thành công trong n phép thử, với xác suất thành công p của mỗi phép thử.Giả sử một công ty thuê 300 người bán thuốc quảng bá sản phẩm ra thị trường, mỗi người gặp 10 khách hàng một ngày và xác suất để khách hàng chấp nhận mua là 20%. Mô phỏng xác suất thành công của 200 sales.
Mô phỏng mẫu:
sale <- rbinom(n = 300 ,size = 10,prob = 0.2)
Các đặc trưng đo lường:
summary(sale)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 1.00 2.00 1.91 3.00 6.00
Đồ thị:
hist(sale, main = "Binomial distribution", xlab = "Xac suat thanh cong")
Dữ liệu nhị phân là dữ liệu định tính chỉ nhận 2 giá trị: Đúng/Sai; Đồng ý/Không đồng ý; Có/Không; Thành công/Thất bại;….Một số bài toán đặt ra:
Chọn ngẫu nhiên 1 sinh viên, tính xác suất để chon được sinh viên giỏi.
Chọn ngẫu nhiên 1 khách hàng, tính xác suất để chọn được người đã có gia đình.
Chọn ngẫu nhiên 1 chiếc xe hơi, tính xác suất xe sử dụng hộp số tự động.
Mô hình logit
logit(π)=log(π1−π)=β0+β1X1+β2X2+⋯+βkXk
Với π là xác suất để biến phụ thuộc nhận giá trị “thành công”. Đối với hàm glm phạm trù thứ hai của biến nhị phân thể hiện cho “thành công” (chúng ta sử dụng hàm levels() để kiểm tra thứ tự của các phạm trù của một biến định tính.
Ta tiến hành uớc lượng hàm hồi quy cho biến PUR - Purchased Bike (quyết định mua xe) phụ thuộc vào các biến độc lập Income, Children và CAR. Đối với hàm PUR phạm trù thứ hai của biến nhị phân thể hiện cho “thành công” ở đây là “1”, thể hiện quyết định khách hàng đồng ý mua xe đạp.
PUR <- bike$PUR
IC <- bike$IC
CHID <- bike$CHID
CAR <- bike$CAR
# Xác định thứ tự các phạm trù của biến Purchased Bike
levels(factor(PUR))
## [1] "0" "1"
bike$PUR<-as.factor(bike$PUR)
bike$MS<-as.factor(bike$MS)
MS <- bike$MS
# Ước lượng
purch1 <- glm(factor(PUR) ~ IC + CHID + CAR + MS, family = binomial(link = 'logit'), data = bike)
summary(purch1)
##
## Call:
## glm(formula = factor(PUR) ~ IC + CHID + CAR + MS, family = binomial(link = "logit"),
## data = bike)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.524e-01 1.649e-01 -0.924 0.35542
## IC 1.350e-05 2.483e-06 5.438 5.38e-08 ***
## CHID -1.137e-01 4.355e-02 -2.611 0.00904 **
## CAR -4.963e-01 6.862e-02 -7.232 4.76e-13 ***
## MSS 5.194e-01 1.351e-01 3.846 0.00012 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1384.9 on 999 degrees of freedom
## Residual deviance: 1297.7 on 995 degrees of freedom
## AIC: 1307.7
##
## Number of Fisher Scoring iterations: 4
Dựa vào kết quả phân tích ước lượng của phần mềm R, ta thấy Giá trị Pr(>|z|) của các biến thu nhập trung bình của khách hàng trong 1 tháng, biến số lượng người con của khách hàng, biến số ô tô khách có và biến tình trạng hôn nhân lần lượt là 5.38e-08, 0.00904, 4.76e-13 và 0.00012 đều nhỏ hơn 5% cho thấy mỗi biến trên đều có ý nghĩa thống kê trong mô hình. Từ đó ta có hàm dữ liệu nhị phân logit:
logit(π) = - (1.524e-01) + (1.350e-05).IC - (1.137e-01).CHID - (4.963e-01). CAR + (5.194e-01). MSS
# Ước lượng
purch2 <- glm(factor(PUR) ~ IC + CHID + CAR + MS, family = binomial(link = 'probit'), data = bike)
summary(purch2)
##
## Call:
## glm(formula = factor(PUR) ~ IC + CHID + CAR + MS, family = binomial(link = "probit"),
## data = bike)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -9.183e-02 1.018e-01 -0.902 0.366938
## IC 8.188e-06 1.507e-06 5.434 5.51e-08 ***
## CHID -6.985e-02 2.669e-02 -2.617 0.008863 **
## CAR -3.039e-01 4.164e-02 -7.299 2.90e-13 ***
## MSS 3.222e-01 8.294e-02 3.885 0.000102 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1384.9 on 999 degrees of freedom
## Residual deviance: 1297.9 on 995 degrees of freedom
## AIC: 1307.9
##
## Number of Fisher Scoring iterations: 4
Dựa vào kết quả phân tích ước lượng của phần mềm R, ta thấy Giá trị Pr(>|z|) của các biến thu nhập trung bình của khách hàng trong 1 tháng, biến số lượng người con của khách hàng, biến số ô tô khách có và biến tình trạng hôn nhân lần lượt là 5.51e-08, 0.008863, 2.90e-13 và 0.000102 đều nhỏ hơn 5% cho thấy mỗi biến trên đều có ý nghĩa thống kê trong mô hình. Từ đó ta có hàm dữ liệu nhị phân probit:
probit(π) = - (9.183e-02) + (8.188e-06).IC - (6.985e-02).CHID - (3.039e-01).CAR + (3.222e-01).MSS
# Ước lượng
purch3 <- glm(factor(PUR) ~ IC + CHID + CAR + MS, family = binomial(link = 'cloglog'), data = bike)
summary(purch3)
##
## Call:
## glm(formula = factor(PUR) ~ IC + CHID + CAR + MS, family = binomial(link = "cloglog"),
## data = bike)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -4.650e-01 1.190e-01 -3.909 9.28e-05 ***
## IC 8.838e-06 1.713e-06 5.160 2.47e-07 ***
## CHID -8.457e-02 3.139e-02 -2.694 0.007054 **
## CAR -3.371e-01 4.751e-02 -7.095 1.30e-12 ***
## MSS 3.484e-01 9.523e-02 3.658 0.000254 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 1384.9 on 999 degrees of freedom
## Residual deviance: 1301.0 on 995 degrees of freedom
## AIC: 1311
##
## Number of Fisher Scoring iterations: 6
Dựa vào kết quả phân tích ước lượng của phần mềm R, ta thấy Giá trị Pr(>|z|) của các biến thu nhập trung bình của khách hàng trong 1 tháng, biến số lượng người con của khách hàng, biến số ô tô khách có và biến tình trạng hôn nhân lần lượt là 2.47e-07, 0.007054, 1.30e-12 và 0.000254 đều nhỏ hơn 5% cho thấy mỗi biến trên đều có ý nghĩa thống kê trong mô hình. Từ đó ta có hàm dữ liệu nhị phân cloglog:
cloglog(π) = - (4.650e-01) + (8.838e-06).IC - (8.838e-06).CHID - (3.371e-01).CAR + (3.484e-01).MSS
Sau khi thực hiện kiểm định sự phù hợp của mô hình logit, probit và cloglog, chúng ta thấy cả 3 mô hình đều phù hợp với dữ liệu.
Tiêu chí Akaike Information Criterion (AIC) là một tiêu chí thông tin được sử dụng để đánh giá các mô hình thống kê. AIC được đặt theo tên của Hirotugu Akaike, người đã phát triển nó vào năm 1974. AIC là một thước đo của mức độ phù hợp của một mô hình với dữ liệu. Nó được tính bằng cách thêm số lượng tham số trong mô hình (k) đến ln(L), giá trị logarit tự nhiên của likelihood của mô hình. AIC càng nhỏ thì mô hình càng phù hợp với dữ liệu. Tuy nhiên, cần lưu ý rằng AIC không phải là một thước đo tuyệt đối của sự phù hợp. Nó chỉ so sánh các mô hình với nhau.
# Tiêu chí AIC
aic1 <- AIC(purch1)
aic2 <- AIC(purch2)
aic3 <- AIC(purch3)
AIC <- cbind(aic1,aic2,aic3)
AIC
## aic1 aic2 aic3
## [1,] 1307.657 1307.923 1310.982
Từ kết quả phân tích và thống kê của phần mềm R, ta có:
AIC (logit)= 1307.657
AIC (probit) = 1307.923
AIC (cloglog) = 1310.982
Vậy mô hình hồi quy logit có AIC thấp nhất mang lại sự phù hợp nhất.
Brier Score là chỉ tiêu dùng để đánh giá mô hình hồi quy logistic, giá trị của Brier Score càng nhỏ nghĩa là chênh lệch giữa xác suất thực tế và xác suất tính từ mô hình càng nhỏ, nghĩa là mô hình càng tốt.
library (DescTools)
BrierScore(purch1)
## [1] 0.2283753
BrierScore(purch2)
## [1] 0.2284445
BrierScore(purch3)
## [1] 0.2290192
Từ tính toán của Giá trị Brier Score của 3 mô hình logit, probit và cloglog, ta thấy BrierScore của logit có giá trị 0,2283753 nhỏ nhất nghĩa là mô hình này là tốt nhất.
Deviance cũng là một tiêu chí rất phổ biến được sử dụng để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Hợp lý cực đại (ML). Một cách tổng quá, cũng giống như chỉ tiêu AIC, giá trị của Deviance càng nhỏ thì mô hình càng tốt. Deviance được tính bằng cách lấy logarit tự nhiên của likelihood của một mô hình và trừ đi logarit tự nhiên của likelihood của một phân phối xác suất tham chiếu. Phân phối xác suất tham chiếu thường là một phân phối xác suất chuẩn.
# Tiêu chí Deviance
de1 <- deviance(purch1)
de2 <- deviance(purch2)
de3 <- deviance(purch3)
deviance <- cbind(de1,de2,de3)
deviance
## de1 de2 de3
## [1,] 1297.657 1297.923 1300.982
Từ kết quả phân tích và thống kê của phần mềm R, ta có:
Deviance (logit)= 1297,657
Deviance (probit) = 1297,923
Deviance (cloglog) = 1300,982
Vậy mô hình hồi quy logit có Deviance thấp nhất mang lại sự phù hợp nhất.
Đây là phương pháp đánh giá hiệu suất cho những kết quả của những bài toán phân loại với việc xem xét cả những chỉ số về độ chính xác (Accuracy) và độ bao quát, thông qua đó so sánh các giá trị mục tiêu thực tế với các giá trị được dự đoán bởi mô hình.
library(ggplot2)
library(caret)
## Warning: package 'caret' was built under R version 4.3.1
## Loading required package: lattice
##
## Attaching package: 'caret'
## The following objects are masked from 'package:DescTools':
##
## MAE, RMSE
PUR <- bike$PUR
# Đánh giá mô hình trên tập kiểm tra
predictions <- predict(purch1, newdata = bike, type = "response")
predicted_classes <- ifelse(predictions > 0.5, "1", "0") # Chỉnh ngưỡng phân loại
predictions1<-factor(predicted_classes, levels = c("0","1"))
actual<- factor(bike$PUR, labels = c("0","1"))
confusionMatrix(table(predictions1, actual))
## Confusion Matrix and Statistics
##
## actual
## predictions1 0 1
## 0 344 199
## 1 175 282
##
## Accuracy : 0.626
## 95% CI : (0.5952, 0.6561)
## No Information Rate : 0.519
## P-Value [Acc > NIR] : 5.834e-12
##
## Kappa : 0.2495
##
## Mcnemar's Test P-Value : 0.2343
##
## Sensitivity : 0.6628
## Specificity : 0.5863
## Pos Pred Value : 0.6335
## Neg Pred Value : 0.6171
## Prevalence : 0.5190
## Detection Rate : 0.3440
## Detection Prevalence : 0.5430
## Balanced Accuracy : 0.6245
##
## 'Positive' Class : 0
##
Mô hình logit có độ chính xác toàn thể là 62,20%, độ nhạy là 66,28% và độ hiệu quả là 58,63%
## "Mô hình purch2"
re2 <- purch2$data$PUR
# Đánh giá mô hình trên tập kiểm tra
predictions1 <- predict(purch2, newdata = bike, type = "response")
predicted_classes1 <- ifelse(predictions1 > 0.5, "1", "0") # Chỉnh ngưỡng phân loại
predictions2<-factor(predicted_classes1, levels = c("0","1"))
actual1<- factor(bike$PUR, labels = c("0","1"))
confusionMatrix(table(predictions2, actual1))
## Confusion Matrix and Statistics
##
## actual1
## predictions2 0 1
## 0 347 201
## 1 172 280
##
## Accuracy : 0.627
## 95% CI : (0.5962, 0.6571)
## No Information Rate : 0.519
## P-Value [Acc > NIR] : 3.727e-12
##
## Kappa : 0.2513
##
## Mcnemar's Test P-Value : 0.1471
##
## Sensitivity : 0.6686
## Specificity : 0.5821
## Pos Pred Value : 0.6332
## Neg Pred Value : 0.6195
## Prevalence : 0.5190
## Detection Rate : 0.3470
## Detection Prevalence : 0.5480
## Balanced Accuracy : 0.6254
##
## 'Positive' Class : 0
##
Mô hình probit có độ chính xác toàn thể là 62,70%; độ nhạy là 66,86% và độ hiệu quả là 58,21%.
## "Mô hình purch3"
re3 <- purch3$data$PUR
# Đánh giá mô hình trên tập kiểm tra
predictions2 <- predict(purch3, newdata = bike, type = "response")
predicted_classes2 <- ifelse(predictions2 > 0.5, "1", "0") # Chỉnh ngưỡng phân loại
predictions3<-factor(predicted_classes2, levels = c("0","1"))
actual2<- factor(bike$PUR, labels = c("0","1"))
confusionMatrix(table(predictions3, actual2))
## Confusion Matrix and Statistics
##
## actual2
## predictions3 0 1
## 0 357 207
## 1 162 274
##
## Accuracy : 0.631
## 95% CI : (0.6002, 0.661)
## No Information Rate : 0.519
## P-Value [Acc > NIR] : 5.954e-13
##
## Kappa : 0.2584
##
## Mcnemar's Test P-Value : 0.02199
##
## Sensitivity : 0.6879
## Specificity : 0.5696
## Pos Pred Value : 0.6330
## Neg Pred Value : 0.6284
## Prevalence : 0.5190
## Detection Rate : 0.3570
## Detection Prevalence : 0.5640
## Balanced Accuracy : 0.6288
##
## 'Positive' Class : 0
##
Mô hình cloglog có độ chính xác toàn thể là 63,10%, độ nhạy là 68,79% và độ hiệu quả là 56,96%.
Độ chính xác toàn thể của mô hình logit cao nhất; độ nhạy của mô hình cloglog cao nhất và độ hiệu quả của mô hình probit cao nhất. Vì mục tiêu của bài tiểu luận là đánh giá hành vi tiêu thụ xe đạp của khách hàng nên độ chính xác là tiêu chí quan trọng nhất để đánh giá trong trường hợp này, vì vậy mô hình lựa chọn là mô hình logit.
| Mô hình | AIC | Deviance | Brier Score | Độ chính xác | Độ nhạy | Độ đặc hiệu |
|---|---|---|---|---|---|---|
| Logit | 1307.657 | 1297.657 | 0.22838 | 0.626 | 0.6628 | 0.5863 |
| Probit | 1307.923 | 1297.923 | 0.22845 | 0.627 | 0.6686 | 0.5821 |
| Cloglog | 1310.982 | 1300.982 | 0.22902 | 0.631 | 0.6879 | 0.5696 |
| Lựa chọn | MH1 | MH1 | MH1 | MH1 | MH1 | MH3 |
Kết luận: Dựa vào 4 tiêu chí trên, ta thấy mô hình logit là mô hình được lựa chọn nhiều nhất do đó mô hình logit là tốt nhất được sử dụng để phân tích đánh giá các yếu tố ảnh hưởng đến hành vi tiêu thụ xe đạp của khách hàng.
Kết quả nghiên cứu cho thấy thông qua việc phân tích định tính kết hợp định lượng, sử dụng bộ số liệu thu thập được tại một công ty châu Âu và ước lượng mô hình hồi quy tổng quát cho các biến định tính để kiểm định và lựa chọn mô hình phù hợp đã chỉ rõ xu hướng, thói quen và phân khúc khách hàng tiềm năng sử dụng xe đạp. Từ đó từ đó đưa ra phương án và các chương trình khuyến mãi nhằm thúc đẩy lượng tiêu thụ xe đạp ra thị trường trong nước, thu hút nhóm khách hàng tiềm năng để phát triển thị trường xe đạp ngày một sôi động.
Nghiên cứu đã chỉ ra những khách hàng đã kết hôn và sở hữu nhà có nhu cầu mua xe đạp chiếm tỷ trọng rất cao trong tổng số 1000 người, đồng thời nhóm khách có khoảng cách đi làm càng ngắn càng ưa chuộng đi xe đạp nhiều hơn so với những người phải đi làm xa. Bên cạnh đó, phân khúc nhóm khách hàng nằm trong độ tuổi trung niên từ 30 - 50 tuổi có xu hướng đi xe đạp cao hơn so với những người cao tuổi từ 50 tuổi trở lên. Ngoài ra, những người đã có từ 3 con trở xuống đến mua xe đạp với xác suất rất cao đến 65,9 %. Kết quả đã phân tích và đánh giá được từng nhóm khách hàng mục tiêu và tiềm năng cho thị trường xe đạp và các chuỗi kinh doanh bán lẻ xe đạp trong nước nói chung và công ty châu Âu nói tiêng đeer có thể đưa ra những chính sách và chương trình giảm giá, các voucher phù hợp thúc đẩy doanh thu bán hàng.
Dựa trên kết quả phân tích tác động các yếu tố như giới tính; tình trạng hôn nhân; thu nhập;… và một số biến khác có ý nghĩa ảnh hưởng đến quyết định mua xe đạp của khách hàng, nghiên cứu đưa ra một số khuyến nghị, chính sách nhằm gia tăng nhu cầu sử dụng xe đạp ở thị trường trong nước đồng thời kết hợp đưa ra một số chương trình khuyễn mãi, giảm giá đánh vào phân khúc khách hàng mục tiêu và tiềm năng. Chẳng hạn chính phủ có thể chủ trương thí điểm phát triển thêm nhiều điểm cho thuê xe đạp công cộng tại các cung đường trên thành phố để làm thay đổi dần thói quen đi lại của người dân, thông qua đó tạo môi trường sống trong lành. Ngoài ra, những chính sách nhằm khuyến khích người dân sử dụng xe đạp như tổ chức các tour du lịch bằng xe đạp, thành lập thêm nhiều hội thao, câu lạc bộ chạy xe leo núi, mở rộng thêm giải đua xe đạp cự li dài nhằm nâng cao nhận thức của người đan về tầm quan trọng của việc sử dụng xe đạp trong cuộc sống. Bên canh đó, các chuỗi bán lẻ xe đạp và nhiều công ty lớn nên cho ra nhiều mẫu mã xe đạp đa dạng hiện đại đánh mạnh vào phân khúc trẻ em và khách hàng trong độ tuổi thanh thiếu niên, trung niên từ 30 đến 50 tuổi bởi nhóm khách hàng này thường chú trọng rèn luyện sức khoẻ.
Trong bối cảnh mới, khi nền kinh tế phát triển, thu nhập bình quân của người dân tăng khiến nhu cầu đạp xe tăng cường sức khoẻ sẽ mở rộng. Xu hướng đô thị hoá ngày càng lớn, hạ tầng giao thông đường bộ phát triển, chính phủ nên chú trọng tiến hành xây dựng và thiết lập làn đường dành cho xe đạp vì một cuộc sống xanh và giảm nguy cơ ô nhiễm do khi thải và ùn tắc qua các phương tiện giao thông công cộng khác như xe máy, xe ô tô,…Điền hình có thể thấy trên khắp các khu vực phát triển như Bắc Mỹ và châu Âu cũng có xây dựng một làn đường dành riêng cho xe đạp ở các thành phố và vùng ngoại ô.
[1] Trần Mạnh Tường (2023), Phân tích dữ liệu định tính, https://rpubs.com/tmt/1039266
[2] Alan Agresti (2006), An Introduction to Categorical Data Analysis, A Wiley-Interscience Publication JOHN WILEY & SONS, INC.
[3] Nguyễn Văn Tuấn (2007), Phân tích hồi qui logistic trong: Phân tích số liệu và tạo biểu đồ bằng R, Nhà Xuất bản Khoa học và Kỹ thuật.
[4] Nguyễn Văn Tuấn (2018), Phân tích số liệu và biểu đồ bằng R, Garvan Institute of Medical Research.
[5] Trần Kim Thanh (2018), Bài giảng Phân tích dữ liệu định tính, Bộ môn Toán – Thống kê Trường Đại học Tài chính – Marketing. [5] Hoàng Trọng và Chu Nguyễn Mộng Ngọc (2005), Phân tích dữ liệu nghiên cứu với SPSS, Nhà xuất bản thống kê.
[6] Nguyễn Chí Dũng (2017), Kinh tế luọng Ứng dụng với R, http://rpubs.com/chidungkt.