library(ggplot2)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ lubridate 1.9.3 ✔ tibble 3.2.1
## ✔ purrr 1.0.2 ✔ tidyr 1.3.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(dplyr)
library(DT)
## Warning: package 'DT' was built under R version 4.3.3
library(DescTools)
## Warning: package 'DescTools' was built under R version 4.3.3
library(epitools)
library(knitr)
library(tibble)
library(DT)
library(scales)
##
## Attaching package: 'scales'
##
## The following object is masked from 'package:purrr':
##
## discard
##
## The following object is masked from 'package:readr':
##
## col_factor
library(tidyr)
Trước hết, em xin được gửi lời cảm ơn chân thành đến ThS. Trần Mạnh Tường, người đã trực tiếp hướng dẫn và tạo điều kiện thuận lợi để em có thể hoàn thành bài tiểu luận của học phần Phân tích dữ liệu định tính. Trong suốt quá trình thực hiện bài, thầy đã dành nhiều thời gian trao đổi, giải đáp thắc mắc và định hướng nghiên cứu một cách cụ thể, giúp em hiểu rõ hơn về nội dung học phần cũng như cách triển khai một bài tiểu luận khoa học.
Nhờ sự tận tâm và hỗ trợ của thầy, em đã có thêm động lực để cố gắng hoàn thiện bài một cách tốt nhất trong khả năng của mình. Tuy nhiên, do còn hạn chế về kiến thức và kinh nghiệm, bài tiểu luận chắc chắn vẫn còn nhiều thiếu sót. Em mong sẽ nhận được những góp ý và xây dựng từ thầy để có thể rút kinh nghiệm, hoàn thiện bản thân trong những lần nghiên cứu sau.
Em xin kính chúc thầy sức khỏe, nhiều niềm vui trong công việc và cuộc sống. Hy vọng trong thời gian tới, em sẽ tiếp tục có cơ hội được học hỏi thêm từ thầy.
Em xin chân thành cảm ơn.
Tôi xin cam đoan đây là bài tiểu luận học phần môn Phân tích dữ liệu định tính độc lập của mình. Các kết quả nghiên cứu trong báo cáo này là trung thực. Mọi sự giúp đỡ cho việc thực hiện báo cáo đã được cảm ơn và các thông tin trích dẫn trong báo cáo là có uy tín, có nguồn gốc rõ ràng và được phép công bố.
Trong bối cảnh xã hội hiện đại, khi nhịp sống ngày càng trở nên hối hả và áp lực từ công việc, học tập, các mối quan hệ xã hội không ngừng gia tăng, nhu cầu giải trí đã và đang trở thành một phần không thể thiếu trong đời sống tinh thần của mỗi người. Giải trí không chỉ đơn thuần là một hoạt động để giết thời gian, mà còn đóng vai trò quan trọng trong việc giúp con người tái tạo năng lượng, giải tỏa căng thẳng, cân bằng cảm xúc và duy trì sức khỏe tâm lý. Trong số các hình thức giải trí phổ biến, âm nhạc từ lâu đã khẳng định vị thế đặc biệt nhờ khả năng tác động mạnh mẽ đến cảm xúc, khơi gợi ký ức, kết nối con người với nhau và lan tỏa những thông điệp sâu sắc một cách tự nhiên, giàu tính nghệ thuật.
Cùng với sự phát triển nhanh chóng của công nghệ số và internet, cách con người tiếp cận và tiêu thụ âm nhạc cũng đang thay đổi từng ngày. Thay vì nghe nhạc qua các phương tiện truyền thống như đĩa CD hay radio, ngày nay, người dùng có xu hướng chuyển sang các nền tảng trực tuyến với khả năng cung cấp kho nhạc khổng lồ, truy cập nhanh chóng, tiện lợi mọi lúc mọi nơi và đặc biệt là khả năng cá nhân hóa trải nghiệm nghe nhạc theo sở thích riêng biệt. Trong số đó, Spotify nổi bật như một trong những nền tảng nghe nhạc trực tuyến hàng đầu trên thế giới, không chỉ cung cấp dịch vụ phát nhạc mà còn xây dựng một hệ sinh thái âm nhạc thông minh, tương tác và linh hoạt.
Trước sự thay đổi rõ nét trong hành vi tiêu dùng âm nhạc này, việc nghiên cứu hành vi của người nghe trên các nền tảng số, đặc biệt là Spotify, trở nên vô cùng cần thiết và có ý nghĩa cả về mặt học thuật lẫn thực tiễn. Việc phân tích hành vi người dùng không chỉ giúp hiểu rõ hơn về nhu cầu, thị hiếu và xu hướng thưởng thức âm nhạc trong thời đại số mà còn cung cấp cơ sở dữ liệu quan trọng để các doanh nghiệp công nghệ, công ty âm nhạc hay các nhà phát triển nội dung tối ưu hóa chiến lược sản phẩm, cải thiện trải nghiệm người dùng và xây dựng các hệ thống gợi ý âm nhạc thông minh hơn, sát với nhu cầu thực tế hơn.
Chính từ bối cảnh và nhu cầu thực tiễn đó, đề tài PHÂN TÍCH CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN HÀNH VI NGƯỜI DÙNG TRÊN NỀN TẢNG NGHE NHẠC TRỰC TUYẾN SPOTIFY được lựa chọn với mong muốn tiếp cận một vấn đề hiện đại, gần gũi với đời sống hàng ngày thông qua góc nhìn phân tích dữ liệu. Không chỉ đơn thuần dừng lại ở việc quan sát xu hướng, đề tài còn nhằm rèn luyện khả năng vận dụng các công cụ phân tích định lượng vào thực tiễn, từ đó góp phần đưa ra các đề xuất cụ thể cho việc nâng cao hiệu quả của các nền tảng nghe nhạc số và hiểu rõ hơn về hành vi giải trí của con người trong thời đại công nghệ 4.0.
Đề tài hướng đến việc phân tích và khám phá hành vi nghe nhạc của người dùng trên nền tảng trực tuyến Spotify thông qua dữ liệu hành vi thực tế. Cụ thể, nghiên cứu nhằm:
Hiểu rõ các đặc điểm hành vi tiêu thụ âm nhạc như: thói quen bỏ qua bài hát, thời gian nghe nhạc trong ngày, mối liên hệ giữa đặc điểm bài hát và sự tương tác của người dùng.
Xác định các yếu tố có thể ảnh hưởng đến mức độ tương tác với bài hát như thể loại, độ dài, giai điệu, hay thời điểm nghe.
Ứng dụng các kỹ thuật phân tích dữ liệu để khám phá các mẫu hành vi tiêu biểu và đưa ra các gợi ý ban đầu cho việc cá nhân hóa trải nghiệm người dùng.
Đề xuất một số hướng ứng dụng thực tiễn từ kết quả nghiên cứu vào hoạt động phát triển nội dung và chiến lược tiếp thị âm nhạc trong môi trường số.
Đối tượng nghiên cứu: Hành vi nghe nhạc của người dùng trên nền tảng Spotify, được thể hiện thông qua các chỉ số tương tác như: nhu cầu người dùng mua gói cao cấp (premium), nhu cầu người dùng sẵn sàng mua gói cao cấp, thể loại nhạc mà người dùng thích nghe,…
Phạm vi nghiên cứu:
Không gian: Tập trung vào dữ liệu người dùng của Spotify.
Thời gian: Dữ liệu được sử dụng mang tính cắt ngang (snapshot), phản ánh một giai đoạn tương đối ngắn nhưng có ý nghĩa trong việc quan sát hành vi.
Đề tài được chia thành các phần chính như sau:
PHẦN MỞ ĐẦU
CHƯƠNG 1. TỔNG QUAN LÝ THUYẾT VÀ DỮ LIỆU NGHIÊN CỨU.
CHƯƠNG 2. THỐNG KÊ MÔ TẢ CỦA DỮ LIỆU.
CHƯƠNG 3. THỐNG KÊ SUY DIỄN CỦA DỮ LIỆU.
CHƯƠNG 4. MÔ HÌNH HỒI QUY.
PHẦN KẾT LUẬN.
Spotify là một trong những nền tảng phát nhạc trực tuyến hàng đầu thế giới, được thành lập vào năm 2006 tại Thụy Điển với sứ mệnh thay đổi cách con người khám phá, tiếp cận và thưởng thức âm nhạc trong kỷ nguyên số. Trải qua gần hai thập kỷ phát triển, Spotify đã không ngừng mở rộng quy mô và ảnh hưởng toàn cầu. Tính đến năm 2024, nền tảng này đã thu hút hơn 600 triệu người dùng trên toàn thế giới, trong đó có hơn 200 triệu người là thuê bao trả phí – một con số ấn tượng cho thấy mức độ phổ biến và sức hút mạnh mẽ của dịch vụ này đối với người dùng ở nhiều nhóm tuổi, quốc gia và văn hóa khác nhau.
Không chỉ đơn thuần là một ứng dụng nghe nhạc, Spotify đã trở thành một hệ sinh thái giải trí phong phú, nơi người dùng có thể tiếp cận hàng triệu bài hát, podcast và playlist được cập nhật liên tục, cá nhân hóa theo sở thích, thói quen và tâm trạng. Với giao diện thân thiện, khả năng đồng bộ đa thiết bị cùng hệ thống thuật toán đề xuất được phát triển, Spotify mang đến trải nghiệm nghe nhạc linh hoạt, tiện lợi và gần như “may đo” cho từng cá nhân. Sự thành công của Spotify không chỉ nằm ở kho nội dung đồ sộ, mà còn ở cách nền tảng này sử dụng dữ liệu người dùng để cải thiện liên tục chất lượng dịch vụ và duy trì mức độ tương tác cao.
Việc mỗi lượt nghe, tạm dừng, bỏ qua, chia sẻ, thêm bài hát vào playlist hay thậm chí là thời gian nghe nhạc trong ngày đều được ghi nhận và xử lý thông qua hệ thống dữ liệu lớn đã mở ra một hướng tiếp cận mới trong việc nghiên cứu hành vi tiêu dùng âm nhạc. Spotify chính là ví dụ điển hình cho xu hướng “dữ liệu hóa” trải nghiệm giải trí, nơi mà từng hành vi nhỏ nhất đều có thể trở thành cơ sở để cá nhân hóa trải nghiệm, dự đoán nhu cầu người dùng, và từ đó thúc đẩy hiệu quả kinh doanh cũng như sự hài lòng của khách hàng.
Chính vì vậy, việc phân tích hành vi người dùng trên Spotify không chỉ giúp hiểu rõ hơn về thói quen nghe nhạc trong thời đại số mà còn có ý nghĩa thực tiễn khác. Spotify là một ví dụ rõ ràng cho thấy dữ liệu người dùng có thể được khai thác hiệu quả để cải thiện dịch vụ và tạo lợi thế cạnh tranh. Việc lựa chọn nghiên cứu nền tảng này cho thấy sự quan tâm đến một vấn đề vừa gần gũi, vừa mang tính thời sự trong xã hội hiện nay.
Hành vi người dùng trên Spotify trước hết bị chi phối bởi các đặc điểm cá nhân như tuổi tác, giới tính, sở thích âm nhạc và thói quen sử dụng công nghệ. Những yếu tố này tạo nên một hệ quy chiếu riêng biệt cho mỗi người dùng, khiến họ có xu hướng lựa chọn nội dung âm nhạc phù hợp với tính cách và lối sống của bản thân. Ví dụ, người trẻ tuổi có thể ưa thích thể loại nhạc sôi động như pop, hip hop hoặc EDM, trong khi người trưởng thành lại hướng về nhạc trữ tình, cổ điển hay acoustic.
Ngoài ra, tâm trạng và cảm xúc cũng đóng vai trò rất lớn trong việc quyết định người dùng nghe gì vào từng thời điểm cụ thể. Khi cảm thấy căng thẳng, họ có thể tìm đến những playlist nhẹ nhàng như “Chill” hoặc “Lofi”; ngược lại, khi tập thể dục hoặc lái xe, những bản nhạc có tiết tấu nhanh sẽ được ưu tiên lựa chọn.
Thói quen sinh hoạt cũng là một yếu tố then chốt: một số người có thói quen nghe nhạc mỗi buổi sáng khi bắt đầu ngày mới, trong khi những người khác chỉ mở nhạc khi làm việc hoặc học bài. Hơn thế nữa, trình độ công nghệ cũng ảnh hưởng đến cách người dùng tương tác với Spotify: người rành công nghệ thường khai thác hiệu quả hơn các tính năng như gợi ý cá nhân hóa, tạo playlist riêng, lưu trữ offline, v.v.
Bên cạnh yếu tố cá nhân, hành vi người dùng còn bị ảnh hưởng mạnh mẽ bởi các tác động xã hội. Một ví dụ tiêu biểu là xu hướng lan truyền trên mạng xã hội. Những bài hát viral trên TikTok, Instagram hay YouTube thường nhanh chóng trở thành “trend” và được người dùng tìm nghe trên Spotify. Sức ảnh hưởng từ bạn bè, cộng đồng cũng không thể xem nhẹ – người dùng có thể chọn nghe nhạc theo gợi ý của người quen, hoặc vì muốn hòa nhập vào một xu hướng đang lan rộng trong cộng đồng.
Ngoài ra, các sự kiện văn hóa – xã hội như Lễ Tình nhân, Giáng sinh, Tết Nguyên đán hoặc các kỳ thi học kỳ, mùa hè, các sự kiện thể thao lớn như World Cup cũng tạo ra nhu cầu nghe nhạc mang tính thời điểm. Spotify thường tận dụng điều này để xây dựng các playlist theo chủ đề như “Valentine Vibes”, “Chill Giáng Sinh”, hay “Summer Hits”.
Hình ảnh nghệ sĩ, thần tượng và xu hướng âm nhạc toàn cầu cũng góp phần định hướng thị hiếu người nghe. Người dùng có thể thay đổi hành vi nghe nhạc chỉ vì một nghệ sĩ ra album mới, hoặc bị thu hút bởi các màn kết hợp quốc tế giữa nghệ sĩ Việt Nam và nghệ sĩ nước ngoài.
Spotify không đơn thuần là nơi cung cấp bài hát, mà còn là một nền tảng thông minh có khả năng tác động trực tiếp đến hành vi người dùng thông qua thuật toán gợi ý và các chiến lược cá nhân hóa trải nghiệm. Thuật toán này học hỏi từ lịch sử nghe nhạc, các playlist đã lưu, lượt thả tim, lượt bỏ qua bài hát… để đưa ra các gợi ý phù hợp với từng cá nhân. Khi người dùng cảm thấy các đề xuất ngày càng “hợp gu”, họ có xu hướng tin tưởng hơn vào hệ thống và sử dụng ứng dụng thường xuyên hơn.
Bên cạnh đó, Spotify còn sử dụng các chiến dịch truyền thông sáng tạo như “Spotify Wrapped” – nơi người dùng được xem lại thống kê âm nhạc cá nhân của cả năm – để tạo cảm giác gắn bó cá nhân và khuyến khích họ chia sẻ trên mạng xã hội.
Không thể không kể đến các yếu tố kỹ thuật và dịch vụ như giao diện thân thiện, tốc độ tải nhanh, khả năng nghe nhạc không cần kết nối mạng, tính năng chia sẻ playlist và khả năng tích hợp đa nền tảng (smartphone, laptop, smart TV, loa thông minh…). Ngoài ra, chính sách giá linh hoạt (miễn phí, Premium cá nhân, gói sinh viên, gói gia đình…) cũng giúp Spotify tiếp cận đa dạng người dùng ở nhiều tầng lớp khác nhau.
Khi biến phụ thuộc là biến nhị phân, việc sử dụng mô hình hồi quy tuyến tính truyền thống (OLS) không còn phù hợp vì không đảm bảo tính hợp lý của kết quả dự đoán — cụ thể là giá trị dự báo có thể vượt ra ngoài khoảng từ 0 đến 1. Để giải quyết vấn đề này, một nhóm mô hình được gọi là mô hình hồi quy nhị phân đã được phát triển nhằm mô hình hóa xác suất xảy ra sự kiện quan tâm, tức xác suất Y=1 dựa trên các biến giải thích X.
Thay vì dự đoán trực tiếp giá trị 0 hoặc 1, các mô hình này ước lượng xác suất thuộc về nhóm “1” thông qua việc chuyển đổi một tổ hợp tuyến tính của các biến độc lập thành một giá trị trong khoảng (0, 1). Sự khác biệt giữa các mô hình này chủ yếu nằm ở hàm phân phối tích lũy (CDF) mà chúng sử dụng để ánh xạ tổ hợp tuyến tính đó sang xác suất. Trong thực tiễn, ba mô hình được sử dụng rộng rãi nhất thuộc nhóm này là:
Mô hình Logit.
Mô hình Probit.
Mô hình Complementary Log-log (Clog-log).
Mô hình Logit là một trong những phương pháp phổ biến nhất để phân tích dữ liệu định tính nhị phân. Giả định của mô hình là xác suất xảy ra sự kiện (Y = 1) sẽ tuân theo phân phối logistic.
Hàm tuyến tính (Linear Predictor): \[ z = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k \]
Hàm liên kết (Link Function): Hàm Logit, được xây dựng dựa trên hàm phân phối tích lũy Logistic: \[ P(Y = 1 | X) = \frac{e^z}{1 + e^z} = \frac{1}{1 + e^{-z}} \]
Phương trình ước lượng (Estimation Equation): \[ \ln\left(\frac{P}{1 - P}\right) = \beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k \]
Đặc điểm: Mô hình này cho phép giải thích hệ số hồi quy thông qua tỷ lệ chênh (Odds Ratio), là một cách diễn giải trực quan và dễ hiểu. Logistic là phân phối “đầy đặn” hơn so với phân phối chuẩn, có nghĩa là nó ít nhạy cảm hơn với dữ liệu ngoại biên.
Mô hình Probit là một lựa chọn thay thế khả thi cho Logit, đặc biệt được dùng nhiều trong kinh tế học. Giả định xác suất lựa chọn tuân theo phân phối chuẩn tích lũy.
Hàm tuyến tính: \[ z = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k \]
Hàm liên kết: Hàm Probit là hàm phân phối tích lũy chuẩn (CDF của chuẩn tắc), ký hiệu là \(\Phi\): \[ P(Y = 1 | X) = \Phi(z) = \int_{-\infty}^z \frac{1}{\sqrt{2\pi}} e^{-t^2/2} dt \]
Đặc điểm: Mặc dù Probit không dễ dàng diễn giải trực tiếp qua Odds Ratio như Logit, nhưng lại phù hợp trong các tình huống cần giả định phân phối chuẩn ẩn. Chênh lệch giữa hai mô hình là rất nhỏ về kết quả nhưng khác biệt về nền tảng lý thuyết.
Mô hình Clog-log thường được sử dụng trong những tình huống có xác suất rất nhỏ hoặc rất lớn, như khi mô hình hóa các sự kiện hiếm.
Hàm tuyến tính: \[ z = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k \]
Hàm liên kết: Dựa trên phân phối Gumbel (cực trị loại I), hàm liên kết là: \[ P(Y = 1 | X) = 1 - e^{-e^z} \]
Đặc điểm: Vì tính chất phi đối xứng, mô hình này phù hợp khi xác suất xảy ra sự kiện không đối xứng (ví dụ như sự kiện hiếm gặp hoặc thành công hiếm). Khác với Logit và Probit đối xứng quanh 0.5, Clog-log thì không.
Sau khi xây dựng các mô hình hồi quy nhị phân, bước tiếp theo là đánh giá và lựa chọn mô hình phù hợp nhất. Trong nghiên cứu này, ba tiêu chí chính được sử dụng gồm: AIC, Brier Score và Ma trận nhầm lẫn (Confusion Matrix).
AIC là một chỉ số giúp so sánh giữa các mô hình thống kê, bằng cách kết hợp giữa mức độ khớp của mô hình với dữ liệu (thông qua log-likelihood) và mức độ đơn giản của mô hình (số lượng tham số).
Công thức:
\[
AIC = -2 \log(L) + 2k
\]
Trong đó:
- \(L\): Giá trị log-likelihood của mô
hình
- \(k\): Tổng số tham số được ước
lượng
Ý nghĩa:
- Mô hình có AIC càng thấp thì càng được đánh giá là tốt hơn.
- AIC rất hữu ích để lựa chọn mô hình
Brier Score là một chỉ số đo lường mức độ chính xác trong dự đoán xác suất của mô hình. Cụ thể, nó phản ánh mức chênh lệch bình phương giữa xác suất dự đoán và kết quả thực tế.
Công thức:
\[
\text{Brier Score} = \frac{1}{n} \sum_{i=1}^{n} (p_i - y_i)^2
\]
Trong đó:
- \(p_i\): Xác suất mà mô hình dự đoán
cho quan sát thứ \(i\)
- \(y_i\): Giá trị thực tế (0 hoặc
1)
- \(n\): Số lượng quan sát
Ý nghĩa:
- Brier Score càng nhỏ thì dự đoán của mô hình càng gần với thực
tế.
- Giá trị của chỉ số này nằm trong khoảng từ 0 (dự đoán hoàn hảo) đến 1
(dự đoán tệ nhất).
- Khác với các chỉ số đánh giá phân loại, Brier Score đánh giá trực tiếp
độ chính xác của xác suất dự báo.
Ma trận nhầm lẫn được sử dụng để đánh giá hiệu quả phân loại của mô hình khi áp dụng một ngưỡng xác suất để quyết định giữa hai nhãn (ví dụ: 0 hoặc 1). Dạng bảng như sau:
| Dự đoán = 1 | Dự đoán = 0 | |
|---|---|---|
| Thực tế = 1 | TP (True Positive) | FN (False Negative) |
| Thực tế = 0 | FP (False Positive) | TN (True Negative) |
Từ đó, ta có thể tính ra các chỉ số hiệu suất như:
Accuracy (Độ chính xác tổng thể):
\[
Accuracy = \frac{TP + TN}{TP + TN + FP + FN}
\]
Precision (Tỷ lệ dự đoán dương chính xác):
\[
Precision = \frac{TP}{TP + FP}
\]
Recall (Tỷ lệ bắt đúng thực sự dương):
\[
Recall = \frac{TP}{TP + FN}
\]
F1-score (Trung bình điều hòa giữa Precision và
Recall):
\[
F1 = 2 \cdot \frac{Precision \cdot Recall}{Precision + Recall}
\]
Ý nghĩa:
- Ma trận nhầm lẫn giúp phân tích kỹ hơn hiệu suất mô hình, nhất là
trong các trường hợp dữ liệu không cân bằng (ví dụ khi một lớp xuất hiện
ít hơn hẳn lớp còn lại).
- Tùy mục đích phân tích, Precision, Recall hay F1-score có thể được ưu
tiên sử dụng thay vì chỉ nhìn vào Accuracy.
- Trong nghiên cứu này, cả ba nhóm chỉ số đều được sử dụng để đánh giá
toàn diện hiệu quả mô hình hồi quy nhị phân.
Bộ dữ liệu được thu thập để tiến hành phân tích mang tên: Spotify User Behavior Dataset. Dữ liệu được sử dụng trong nghiên cứu là một tập hợp khảo sát về hành vi người dùng trên nền tảng Spotify, bao gồm 520 quan sát được thu thập từ những người nghe nhạc với nhiều đặc điểm khác nhau. Bộ dữ liệu phản ánh toàn diện các khía cạnh liên quan đến thói quen và xu hướng sử dụng Spotify, từ đặc điểm nhân khẩu học đến hành vi tương tác với nội dung âm nhạc và podcast.
Tập dữ liệu mang lại một cái nhìn đa chiều về hành vi tiêu dùng âm nhạc trong môi trường số, đặc biệt là qua lăng kính của người dùng Spotify – một nền tảng âm nhạc toàn cầu đang chiếm lĩnh thị trường. Với cấu trúc bao gồm cả yếu tố định tính và định lượng, dữ liệu này cho phép áp dụng linh hoạt nhiều kỹ thuật phân tích, từ thống kê mô tả cho đến phân nhóm hoặc mô hình hóa hành vi. Đây là cơ sở quan trọng để nghiên cứu có thể tiếp cận một cách toàn diện các xu hướng, sở thích và hành vi thực tế của người dùng, từ đó đưa ra các nhận định sát với thực tiễn và mang tính ứng dụng cao.
Bộ dữ liệu được sử dụng trong nghiên cứu này được thu thập từ nền tảng Kaggle – một trong những cộng đồng khoa học dữ liệu trực tuyến lớn nhất hiện nay, nơi các nhà nghiên cứu, sinh viên và chuyên gia chia sẻ, thảo luận và khai thác dữ liệu phục vụ cho mục đích học thuật và thực tiễn. Cụ thể, Spotify User Behavior Dataset do người dùng Meera Ajayakumar công bố, phản ánh các kết quả khảo sát về thói quen sử dụng nền tảng Spotify của người nghe nhạc.
Với đặc điểm là một bộ dữ liệu mở, miễn phí và đã được làm sạch tương đối, dữ liệu này cho phép người dùng tiến hành các phân tích hành vi một cách thuận lợi, đồng thời hỗ trợ việc thực hành các kỹ thuật phân tích dữ liệu trên cơ sở tình huống thực tế. Việc sử dụng nguồn dữ liệu từ Kaggle không chỉ đảm bảo tính minh bạch và khả năng tái sử dụng, mà còn góp phần nâng cao tính ứng dụng và thực tiễn của nghiên cứu trong bối cảnh học thuật hiện đại.
Tên đầy đủ của bộ dữ liệu là Spotify User Behavior Dataset, nhưng để gọi tên ngắn gọn và dễ hiểu thì tác giả sẽ rút gọn lại tên là bộ dữ liệu Spotify. Ta có thể xem tổng quan bộ dữ liệu như dưới đây:
library(xlsx)
spotify <- read.xlsx("D:/UFM/Spotify_data.xlsx", sheetIndex = 1, header = T)
datatable(spotify)
dims <- dim(spotify)
spotify_summary <- data.frame(Thành_phần = c("Số quan sát (hàng)", "Số biến (cột)"),Giá_trị = dims)
kable(spotify_summary, caption = "Số quan sát và số biến của bộ dữ liệu Spotify")
| Thành_phần | Giá_trị |
|---|---|
| Số quan sát (hàng) | 520 |
| Số biến (cột) | 20 |
Bộ dữ liệu Spotify được sử dụng trong nghiên cứu bao gồm 520 quan sát tương ứng với 520 người dùng Spotify, cùng với 20 biến đặc trưng phản ánh đa dạng các khía cạnh trong hành vi sử dụng nền tảng nghe nhạc trực tuyến.
Bộ dữ liệu được sử dụng trong nghiên cứu bao gồm 520 quan sát, tương ứng với 520 người dùng Spotify, cùng với 20 biến đặc trưng phản ánh nhiều khía cạnh trong hành vi và thói quen sử dụng nền tảng nghe nhạc trực tuyến. Trong số đó, phần lớn là biến định tính chiếm hầu hết tổng số biến.
Vì mục tiêu của nghiên cứu là tìm hiểu hành vi người dùng dưới góc độ phân tích dữ liệu định tính, nên các biến định tính đóng vai trò trung tâm trong quá trình phân tích và diễn giải kết quả. Việc tập trung vào các biến định tính không chỉ giúp phản ánh rõ hơn về suy nghĩ, cảm nhận và thói quen tiêu dùng âm nhạc của người dùng, mà còn phù hợp với định hướng phân tích nội dung, phân loại nhóm và khám phá khuôn mẫu hành vi.
Cụ thể các biến có kiểu dữ liệu như sau:
spotify_structure <- tibble::tibble(Tên_biến = names(spotify),Kiểu_dữ_liệu = sapply(spotify, class))
knitr::kable(spotify_structure, caption = "Cấu trúc các biến trong bộ dữ liệu Spotify")
| Tên_biến | Kiểu_dữ_liệu |
|---|---|
| Age | character |
| Gender | character |
| spotify_usage_period | character |
| spotify_listening_device | character |
| spotify_subscription_plan | character |
| premium_sub_willingness | character |
| preffered_premium_plan | character |
| preferred_listening_content | character |
| fav_music_genre | character |
| music_time_slot | character |
| music_Influencial_mood | character |
| music_lis_frequency | character |
| music_expl_method | character |
| music_recc_rating | numeric |
| pod_lis_frequency | character |
| fav_pod_genre | character |
| preffered_pod_format | character |
| pod_host_preference | character |
| preffered_pod_duration | character |
| pod_variety_satisfaction | character |
Dựa trên các biến trên, ta có thể tạm thời chia các biến thành các nhóm chính sau:
Thông tin nhân khẩu học như Age, Gender.
Hành vi sử dụng Spotify như spotify usage period, spotify listening device, spotify subscription plan, premium_sub_willingness.
Sở thích nghe nhạc như fav music genre, music time slot, music Influencial mood, music lis frequency, music expl method.
Thông tin liên quan đến podcast như pod lis frequency, fav pod genre, preffered pod format, pod host preference, preffered pod duration và pod variety satisfaction.
Bộ dữ liệu được sử dụng trong nghiên cứu bao gồm 20 biến, phản ánh các đặc điểm nhân khẩu học cơ bản, thói quen sử dụng Spotify cũng như nhận định, cảm nhận của người dùng về nền tảng này. Các biến được thiết kế đa dạng về mặt định dạng, trong đó đa số là biến định tính. Việc mô tả rõ từng biến giúp làm rõ cách thức thu thập dữ liệu, định dạng dữ liệu đầu vào và định hướng phân tích phù hợp với mục tiêu nghiên cứu. Danh sách chi tiết tên các biến, loại biến và ý nghĩa tương ứng sẽ được trình bày trong bảng sau:
variable_names <- data.frame(STT = seq_along(names(spotify)), Tên_biến = names(spotify))
knitr::kable(variable_names, caption = "Danh sách tên các biến trong bộ dữ liệu Spotify")
| STT | Tên_biến |
|---|---|
| 1 | Age |
| 2 | Gender |
| 3 | spotify_usage_period |
| 4 | spotify_listening_device |
| 5 | spotify_subscription_plan |
| 6 | premium_sub_willingness |
| 7 | preffered_premium_plan |
| 8 | preferred_listening_content |
| 9 | fav_music_genre |
| 10 | music_time_slot |
| 11 | music_Influencial_mood |
| 12 | music_lis_frequency |
| 13 | music_expl_method |
| 14 | music_recc_rating |
| 15 | pod_lis_frequency |
| 16 | fav_pod_genre |
| 17 | preffered_pod_format |
| 18 | pod_host_preference |
| 19 | preffered_pod_duration |
| 20 | pod_variety_satisfaction |
Số lượng và ý nghĩa cụ thể của từng biến như sau:
Nhóm tuổi 6-12.
Nhóm tuổi 12-20.
Nhóm tuổi 20-35.
Nhóm tuổi 35-60.
Nhóm tuổi trên 60 (60+).
Female: Giới tính nữ.
Male: Giới tính nam.
Others: Giới tính khác.
Less than 6 months: sử dụng spotify dưới 6 tháng.
6 months to 1 year: sử dụng spotify từ 6 tháng - 1 năm.
1 year to 2 years: sử dụng spotify từ 1 - 2 năm.
More than 2 years: sử dụng spotify trên 2 năm.
Free (ad-supported): Gói miễn phí (có quảng cáo).
Premium (paid subscription): Gói cao cấp (có trả phí).
Music: Âm nhạc.
Podcast: Tệp âm thanh kỹ thuật số với đa dạng nội dung.
Morning: Yêu thích nghe nhạc vào buổi sáng.
Afternoon: Yêu thích nghe nhạc vào buổi chiều.
Night: Yêu thích nghe nhạc vào buổi tối.
Daily: Người dùng nghe Podcast mỗi ngày.
Several times a week: Người dùng nghe Podcast nhiều lần trong 1 tuần.
Once a week: Người dùng nghe Podcast 1 lần 1 tuần.
Rarely: Người dùng hiếm khi nghe Podcast.
Never: Người dùng không bao giờ nghe Podcast.
Conversational: Định dạng đàm thoại.
Educational: Định dạng giáo dục.
Interview: Định dạng phỏng vấn.
Story telling: Định dạng kể chuyện.
None: Không có định dạng yêu thích nào.
unknown Podcasters: Những người dẫn không rõ danh tính.
Well known individuals: Những người dẫn là người nổi tiếng.
Both: Cả 2 người dẫn trên.
None: Không ai cả.
Longer: Thích các tập podcast dài hơn (trên 30 phút).
Shorter: Thích các tập podcast ngắn hơn (dưới 30 phút).
Both: Thích cả 2 dạng podcast dài và ngắn.
None: Không thích dạng nào cả.
Very Satisfied: Rất hài lòng.
Satisfied: Hài lòng.
Ok: Tạm hài lòng.
Dissatisfied: Không hài lòng.
Very Dissatisfied: Rất không hài lòng.
Trong nghiên cứu này, biến premium sub willingness được lựa chọn làm biến phụ thuộc, biến này thể hiện mức độ sẵn sàng trả phí để nâng cấp tài khoản Spotify lên gói Premium . Lý do lựa chọn biến này là vì nó đại diện cho ý định tiêu dùng có trả phí, một yếu tố quan trọng phản ánh hành vi tiêu dùng và giá trị cảm nhận của người dùng đối với nền tảng âm nhạc trực tuyến.
Việc phân tích các yếu tố ảnh hưởng đến quyết định sẵn sàng chi trả cho dịch vụ Premium sẽ giúp hiểu rõ hơn về động lực và rào cản trong hành vi người tiêu dùng, từ đó cung cấp cơ sở dữ liệu hữu ích cho các chiến lược tiếp thị, định giá và phát triển sản phẩm của các nền tảng âm nhạc số. Ngoài ra, trong bối cảnh ngày càng nhiều dịch vụ miễn phí cạnh tranh với dịch vụ trả phí, việc nghiên cứu yếu tố thúc đẩy người dùng chuyển sang sử dụng phiên bản cao cấp là một vấn đề mang tính thực tiễn và có giá trị ứng dụng cao.
Câu trả lời Yes là sẵn sàng đăng ký gói cao cấp trong tương lai.
Câu trả lời No là chưa sẵn sàng đăng ký gói cao cấp trong tương lai.
Trong số các biến còn lại có trong bộ dữ liệu, nghiên cứu lựa chọn 4 biến làm biến độc lập gồm: spotify usage period, spotify subscription plan, preffered premium plan và preferred listening content. Đây là những biến được cho là có mối liên hệ chặt chẽ nhất với khả năng sẵn sàng đăng ký gói Premium của người dùng.
Biến spotify_usage_period phản ánh khoảng thời gian mà người dùng đã gắn bó với nền tảng Spotify. Người dùng sử dụng trong thời gian dài có thể phát sinh nhu cầu nâng cấp để có trải nghiệm tốt hơn, do đã hình thành thói quen và mức độ gắn bó cao với nền tảng. Các câu trả lời ghi nhận được gồm:
Less than 6 months: sử dụng spotify dưới 6 tháng.
6 months to 1 year: sử dụng spotify từ 6 tháng - 1 năm.
1 year to 2 years: sử dụng spotify từ 1 - 2 năm.
More than 2 years: : sử dụng spotify trên 2 năm.
Biến spotify_subscription_plan cho biết loại gói hiện tại đăng ký của người dùng (miễn phí hay trả phí). Đây là yếu tố trực tiếp phản ánh hành vi tiêu dùng hiện tại, từ đó ảnh hưởng đến khả năng tiếp tục duy trì hoặc chuyển đổi sang gói cao hơn. Các gói bao gồm:
Free (ad-supported): Gói miễn phí (có quảng cáo).
Premium (paid subscription): Gói cao cấp (có trả phí).
Biến preffered_premium_plan thể hiện lựa chọn ưu tiên của người dùng nếu có ý định trả phí, chẳng hạn như gói cá nhân, sinh viên hay gia đình. Việc người dùng đã có định hướng rõ ràng về loại gói cho thấy tiềm năng cao trong việc sẵn sàng chi trả. Các gói với giá tiền cụ thể như sau:
Student Plan-Rs 59/month: sẵn sàng trả và chọn gói học sinh (59$/ tháng).
Individual Plan-Rs 119/ month: sẵn sàng trả và chọn gói cá nhân (119$/ tháng).
Duo plan- Rs 149/month: sẵn sàng trả và chọn gói đôi (149$/ tháng).
Family Plan-Rs 179/month: sẵn sàng trả và chọn gói gia đình (179$/ tháng).
None: Chưa sẵn sàng trả gói cao cấp.
Biến preferred_listening_content phân biệt giữa người dùng ưu tiên nghe nhạc và người thích podcast. Mỗi nhóm có thể có nhu cầu sử dụng Premium khác nhau, ví dụ người nghe nhạc thường xuyên có thể quan tâm hơn đến chất lượng âm thanh và trải nghiệm không quảng cáo – những yếu tố thúc đẩy nhu cầu nâng cấp tài khoản.
Music: Âm nhạc.
Podcast: Tệp âm thanh kỹ thuật số với đa dạng nội dung.
Với 4 biến này, nghiên cứu kỳ vọng sẽ xác định được các yếu tố quan trọng ảnh hưởng đến hành vi nâng cấp tài khoản của người dùng, từ đó hỗ trợ các nền tảng âm nhạc số trong việc xây dựng chính sách thu hút và duy trì người dùng trả phí.
Ta đến với thống kê mô tả của biến spotify usage period, đây là biến nói về khoảng thời gian mà người dùng đã sử dụng Spotify, ta có thể xem kết quả thống kê tần số và tần suất như sau:
# Tính tần số và tần suất
bangtso2 <- table(spotify$spotify_usage_period)
bangtsuat2 <- prop.table(bangtso2)
# Tạo bảng dữ liệu
bang2 <- data.frame(
"Giá trị" = names(bangtso2),
"Tần số" = as.vector(bangtso2),
"Tần suất (%)" = round(as.vector(bangtsuat2) * 100, 2))
# Hiển thị bảng bằng DT
datatable(bang2, caption = "Bảng: Thống kê biến spotify_usage_period")
Biến spotify_usage_period được chia thành 4 nhóm chính bao gồm:
Less than 6 months: 91 người (chiếm 17.5%)
6 months to 1 year: 119 người (22.89%)
1 year to 2 years: 141 người (27.12%)
More than 2 years: 169 người (32.5%)
Kết quả cho thấy phần lớn người dùng trong bộ dữ liệu đã sử dụng Spotify từ 1 năm trở lên (chiếm gần 60%), trong đó nhóm có thời gian sử dụng hơn 2 năm chiếm tỷ lệ lớn nhất (32.5%). Ngược lại, nhóm người dùng mới (dưới 6 tháng) chiếm tỷ lệ thấp nhất (17.5%).
Điều này gợi ý rằng thời gian sử dụng nền tảng có thể là một yếu tố quan trọng ảnh hưởng đến sự sẵn sàng đăng ký gói Premium. Người dùng sử dụng Spotify lâu dài có khả năng đã hình thành thói quen sử dụng, mức độ hài lòng cao và có xu hướng nâng cấp dịch vụ để tối ưu hóa trải nghiệm. Trong khi đó, người dùng mới có thể còn đang ở giai đoạn khám phá và do dự trong việc chi trả.
Do đó, spotify_usage_period là một biến tiềm năng có tác động đến biến phụ thuộc premium_sub_willingness, và hoàn toàn hợp lý khi đưa vào mô hình phân tích nhằm kiểm định mức độ ảnh hưởng này.
Ta có thể trực quan hóa kết quả thống kê thành biểu đồ cột như dưới đây:
spotify %>% group_by(spotify_usage_period) %>% summarise(n = n()) %>%
ggplot(aes(x = spotify_usage_period, y = n))+
geom_col(fill='pink')+
labs(x="Thời gian mà người dùng đã sử dụng Spotify", y = "Số lượng người dùng")+
labs(caption = "Biểu đồ thời gian mà người dùng đã sử dụng Spotify")+
geom_text(aes(label =n), vjust=2, color = 'black')
Ta đến với thống kê mô tả tiếp theo của biến spotify subscription plan, đây là biến thể hiện loại gói dịch vụ mà người dùng hiện đang sử dụng, ta có thể xem kết quả thống kê tần số và tần suất như sau:
# Tính tần số và tần suất
bangtso3 <- table(spotify$spotify_subscription_plan)
bangtsuat3 <- prop.table(bangtso3)
# Tạo bảng dữ liệu
bang3 <- data.frame(
"Giá trị" = names(bangtso3),
"Tần số" = as.vector(bangtso3),
"Tần suất (%)" = round(as.vector(bangtsuat3) * 100, 2))
# Hiển thị bảng bằng DT
datatable(bang3, caption = "Bảng: Thống kê biến spotify_subscription_plan")
Biến spotify subscription plan được chia làm 2 nhóm:
Free (ad-supported): 424 người (chiếm 81.54%)
Premium (paid subscription): 96 người (chiếm 18.46%)
Số liệu cho thấy đa số người dùng (hơn 80%) đang sử dụng gói miễn phí có quảng cáo. Trong khi đó, chỉ một phần nhỏ người dùng đã lựa chọn gói trả phí Premium. Điều này phản ánh xu hướng phổ biến là người dùng thường ưu tiên trải nghiệm miễn phí trước khi quyết định nâng cấp.
Tuy nhiên, chính sự khác biệt giữa hai nhóm này lại rất có giá trị trong phân tích. Những người đã sử dụng gói Premium có thể được xem là đã chấp nhận chi trả để cải thiện trải nghiệm, và từ đó có thể liên quan chặt chẽ đến mức độ sẵn sàng đăng ký hoặc duy trì Premium trong tương lai.
Do đó, biến spotify subscription plan là một yếu tố trực tiếp phản ánh hành vi tiêu dùng dịch vụ của người dùng và có khả năng ảnh hưởng đáng kể đến biến phụ thuộc premium_sub_willingness. Việc đưa biến này vào mô hình phân tích là hoàn toàn hợp lý nhằm tìm hiểu xem loại gói hiện tại có ảnh hưởng như thế nào đến quyết định đăng ký Premium.
Ta có thể trực quan hóa kết quả thống kê thành biểu đồ tròn như dưới đây:
spotify %>% group_by(spotify_subscription_plan) %>% summarise(n = n()) %>%
ggplot(aes(x = '', y = n,fill = spotify_subscription_plan)) +
geom_col(color = 'black') +
coord_polar('y') +
geom_text(aes(x = 1.3, label = n),position = position_stack(vjust = .5)) +
labs(caption = "Biểu đồ tròn thể hiện loại gói dịch vụ mà người dùng hiện đang sử dụng") +
theme_void()
Biến preferred listening content là biến nội dung người dùng ưu tiên lựa chọn khi sử dụng Spotify, cụ thể là giữa nghe nhạc (Music) và nghe podcast (Podcast), ta có thể xem kết quả thống kê tần số và tần suất như sau:
# Tính tần số và tần suất
bangtso5 <- table(spotify$preferred_listening_content)
bangtsuat5 <- prop.table(bangtso5)
# Tạo bảng dữ liệu
bang5 <- data.frame(
"Giá trị" = names(bangtso5),
"Tần số" = as.vector(bangtso5),
"Tần suất (%)" = round(as.vector(bangtsuat5) * 100, 2))
# Hiển thị bảng bằng DT
datatable(bang5, caption = "Bảng: Thống kê biến preferred_listening_content")
Biến preferred_listening_content có kết quả thống kê như sau:
Music: 410 người (chiếm 78,85%)
Podcast: 110 người (chiếm 21,15%)
Kết quả cho thấy phần lớn người dùng (gần 79%) ưu tiên nghe nhạc, trong khi chỉ khoảng 21% có xu hướng nghe podcast. Điều này phản ánh thực tế rằng Spotify được sử dụng phổ biến nhất với mục đích giải trí âm nhạc truyền thống, còn podcast vẫn chỉ là một hình thức nội dung phụ với lượng người dùng ít hơn.
Tuy nhiên, biến này có thể đóng vai trò quan trọng trong việc dự đoán xu hướng đăng ký gói Premium, bởi người dùng ưu tiên nghe nhạc có thể quan tâm đến việc loại bỏ quảng cáo, chất lượng âm thanh cao hơn – các lợi ích nổi bật của gói Premium. Trong khi đó, người dùng nghe podcast có thể ít bị ảnh hưởng bởi quảng cáo hoặc chất lượng âm thanh, do đó mức độ sẵn sàng trả phí có thể thấp hơn.
Do đó, việc đưa biến preferred_listening_content vào mô hình là hoàn toàn hợp lý, giúp kiểm định liệu nội dung ưu tiên có ảnh hưởng đến quyết định đăng ký Premium hay không.
Ta có thể trực quan hóa kết quả thống kê thành biểu đồ tròn như dưới đây:
spotify %>% group_by(preferred_listening_content) %>% summarise(n = n()) %>%
mutate(perc = round(n / sum(n) * 100, 1)) %>%
ggplot(aes(x = "", y = perc, fill = preferred_listening_content)) +
geom_col(color = 'black') +
coord_polar("y") +
geom_text(aes(x = 1.3, label = paste0(perc, "%")),
position = position_stack(vjust = 0.5)) +
labs(caption = "Biểu đồ tròn về tỷ lệ người dùng ưu tiên lựa chọn khi sử dụng Spotify") +
theme_void()
Để hiểu rõ hơn về các yếu tố có thể ảnh hưởng đến ý định trả phí cho gói Premium của người dùng Spotify, phần này sẽ tiến hành thống kê mô tả và quan sát mối liên hệ giữa biến phụ thuộc này với một số biến độc lập quan trọng. Việc phân tích từng cặp biến sẽ giúp làm rõ xu hướng hành vi của người dùng, từ đó cung cấp cơ sở dữ liệu định hướng cho các mô hình phân tích sâu hơn ở phần tiếp theo.
Ta sẽ tiến hành ước lượng tỷ lệ số người dụng đồng ý mua gói Premium, hay nói cách khác là số người dùng trả lời “Yes” trong biến premium sub willingness.
prop.test(sum(spotify$premium_sub_willingness == "Yes"), nrow(spotify), conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: sum(spotify$premium_sub_willingness == "Yes") out of nrow(spotify), null probability 0.5
## X-squared = 41.556, df = 1, p-value = 1.146e-10
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.3167461 0.4007742
## sample estimates:
## p
## 0.3576923
Đặt giả thiết:
\(H_0\): Tỷ lệ người dùng sẵn sàng đăng ký gói Premium bằng 50%.
\(H_1\): Tỷ lệ người dùng sẵn sàng đăng ký gói Premium khác 50%.
Kết quả kiểm định cho thấy tỷ lệ người dùng sẵn sàng đăng ký gói Premium trên Spotify là khoảng 35.77%, với khoảng tin cậy 95% dao động từ 31.67% đến 40.07%.
Giá trị p rất nhỏ (1.146e-10 < 0.05) cho thấy sự khác biệt giữa tỷ lệ này và mức giả định 50% là có ý nghĩa thống kê. Do đó, có đủ bằng chứng để bác bỏ giả thuyết rằng 50% người dùng sẵn sàng trả phí. Nói cách khác, tỷ lệ thực tế thấp hơn đáng kể so với kỳ vọng 50%.
Điều này gợi ý rằng đa phần người dùng hiện chưa có xu hướng sẵn sàng chi trả cho phiên bản Premium, và Spotify cần có chiến lược cải thiện nhận thức giá trị, chính sách ưu đãi, hoặc nâng cao trải nghiệm miễn phí để thúc đẩy hành vi chuyển đổi.
Trước tiên ta sẽ quy biến phụ thuộc thành biến nhi phân, rồi sau đó tiến hành hồi quy
spotify1 <- spotify
spotify1$premium <- ifelse(spotify1$premium_sub_willingness == "Yes",1,0)
Để tìm hiểu các yếu tố ảnh hưởng đến mức độ sẵn sàng đăng ký Spotify Premium, mô hình hồi quy logistic đã được xây dựng với biến phụ thuộc là premium (nhị phân: Yes/No) và các biến độc lập bao gồm: spotify usage period, spotify subscription plan, preffered premium plan và preferred listening content.
mohinh1 <- glm(premium ~ spotify_usage_period + spotify_subscription_plan + preffered_premium_plan + preferred_listening_content, data = spotify1,family = binomial(link = "logit"))
summary(mohinh1)
##
## Call:
## glm(formula = premium ~ spotify_usage_period + spotify_subscription_plan +
## preffered_premium_plan + preferred_listening_content, family = binomial(link = "logit"),
## data = spotify1)
##
## Coefficients:
## Estimate Std. Error
## (Intercept) -0.27764 0.35281
## spotify_usage_period6 months to 1 year -0.05126 0.33355
## spotify_usage_periodLess than 6 months -0.71354 0.41763
## spotify_usage_periodMore than 2 years 0.34918 0.32452
## spotify_subscription_planPremium (paid subscription) 1.11829 0.31453
## preffered_premium_planFamily Plan-Rs 179/month 0.10363 0.43949
## preffered_premium_planIndividual Plan- Rs 119/ month 0.75000 0.35913
## preffered_premium_planNone -3.66467 0.52499
## preffered_premium_planStudent Plan-Rs 59/month -0.54918 0.35280
## preferred_listening_contentPodcast 0.98930 0.31308
## z value Pr(>|z|)
## (Intercept) -0.787 0.431311
## spotify_usage_period6 months to 1 year -0.154 0.877870
## spotify_usage_periodLess than 6 months -1.709 0.087537 .
## spotify_usage_periodMore than 2 years 1.076 0.281940
## spotify_subscription_planPremium (paid subscription) 3.555 0.000377 ***
## preffered_premium_planFamily Plan-Rs 179/month 0.236 0.813594
## preffered_premium_planIndividual Plan- Rs 119/ month 2.088 0.036764 *
## preffered_premium_planNone -6.980 2.94e-12 ***
## preffered_premium_planStudent Plan-Rs 59/month -1.557 0.119555
## preferred_listening_contentPodcast 3.160 0.001578 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 678.16 on 519 degrees of freedom
## Residual deviance: 408.60 on 510 degrees of freedom
## AIC: 428.6
##
## Number of Fisher Scoring iterations: 6
Kết quả mô hình cho thấy có một số biến độc lập có ý nghĩa thống kê ở mức ý nghĩa 1%, 5% và 10%. Cụ thể:
Biến spotify_subscription_planPremium (paid subscription) có hệ số ước lượng dương (1.11829) và có ý nghĩa rất cao với giá trị p-value < 0.001. Điều này cho thấy người dùng hiện đang sử dụng gói trả phí của Spotify có xu hướng sẵn sàng tiếp tục đăng ký Premium cao hơn đáng kể so với người dùng miễn phí (đối tượng tham chiếu).
Trong nhóm biến preffered_premium_plan, các phương án mà người dùng ưu tiên đăng ký gói Premium trong tương lai cũng có ảnh hưởng rõ rệt:
Người dùng chọn gói Individual Plan – Rs 119/month có hệ số dương (2.088) và có ý nghĩa thống kê ở mức 5% (p = 0.03676), cho thấy đây là nhóm có xu hướng sẵn sàng cao hơn.
Ngược lại, người chọn “None” (không có nhu cầu với bất kỳ gói nào) có hệ số âm lớn (-6.980) và p-value gần bằng 0, cho thấy họ rất không sẵn sàng đăng ký Premium, như kỳ vọng.
Những người ưu tiên gói Student Plan – Rs 59/month cũng có xu hướng sẵn sàng đăng ký, với p-value ~ 0.12 (gần mức ý nghĩa 10%).
Biến preferred_listening_contentPodcast cũng có hệ số dương (3.160) và có ý nghĩa thống kê cao (p = 0.001578), cho thấy những người thích nghe podcast có khả năng cao hơn trong việc đăng ký Premium.
Trong khi đó, các biến liên quan đến thời gian sử dụng Spotify như spotify_usage_period không có ý nghĩa thống kê đáng kể ở các mức thông thường (p > 0.1), cho thấy thời gian gắn bó với nền tảng không nhất thiết phản ánh xu hướng sẵn sàng trả phí.
Kết quả phân tích cho thấy các yếu tố liên quan đến hiện trạng tài khoản, nhu cầu chọn gói Premium cụ thể, và loại nội dung nghe ưa thích là những yếu tố quan trọng có ảnh hưởng rõ rệt đến hành vi sẵn sàng trả phí của người dùng Spotify. Những kết quả này không chỉ có ý nghĩa thống kê mà còn mang lại giá trị thực tiễn trong việc định hướng chiến lược tiếp thị và cá nhân hóa trải nghiệm người dùng.
Để kiểm tra lại mức độ ảnh hưởng của các yếu tố đến hành vi sẵn sàng đăng ký Spotify Premium, một mô hình hồi quy nhị phân với liên kết probit đã được xây dựng (tương tự như logit). Mô hình sử dụng cùng các biến độc lập gồm: thời gian sử dụng Spotify (spotify_usage_period), loại tài khoản hiện tại (spotify_subscription_plan), gói Premium ưa thích (preffered_premium_plan) và nội dung nghe yêu thích (preferred_listening_content).
mohinh2 <- glm(premium ~ spotify_usage_period + spotify_subscription_plan + preffered_premium_plan + preferred_listening_content, data = spotify1,family = binomial(link = "probit"))
summary(mohinh2)
##
## Call:
## glm(formula = premium ~ spotify_usage_period + spotify_subscription_plan +
## preffered_premium_plan + preferred_listening_content, family = binomial(link = "probit"),
## data = spotify1)
##
## Coefficients:
## Estimate Std. Error
## (Intercept) -0.16627 0.21100
## spotify_usage_period6 months to 1 year -0.03328 0.19497
## spotify_usage_periodLess than 6 months -0.39254 0.24441
## spotify_usage_periodMore than 2 years 0.25284 0.18844
## spotify_subscription_planPremium (paid subscription) 0.67686 0.18003
## preffered_premium_planFamily Plan-Rs 179/month 0.03707 0.26367
## preffered_premium_planIndividual Plan- Rs 119/ month 0.45665 0.21475
## preffered_premium_planNone -1.98233 0.25300
## preffered_premium_planStudent Plan-Rs 59/month -0.35805 0.21325
## preferred_listening_contentPodcast 0.57120 0.18080
## z value Pr(>|z|)
## (Intercept) -0.788 0.43071
## spotify_usage_period6 months to 1 year -0.171 0.86446
## spotify_usage_periodLess than 6 months -1.606 0.10827
## spotify_usage_periodMore than 2 years 1.342 0.17966
## spotify_subscription_planPremium (paid subscription) 3.760 0.00017 ***
## preffered_premium_planFamily Plan-Rs 179/month 0.141 0.88818
## preffered_premium_planIndividual Plan- Rs 119/ month 2.126 0.03347 *
## preffered_premium_planNone -7.835 4.68e-15 ***
## preffered_premium_planStudent Plan-Rs 59/month -1.679 0.09315 .
## preferred_listening_contentPodcast 3.159 0.00158 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 678.16 on 519 degrees of freedom
## Residual deviance: 408.17 on 510 degrees of freedom
## AIC: 428.17
##
## Number of Fisher Scoring iterations: 6
Kết quả phân tích hệ số:
Biến spotify_subscription_planPremium (paid subscription) tiếp tục có ảnh hưởng rất đáng kể đến hành vi sẵn sàng trả phí, với hệ số dương (0.67686) và p-value < 0.001. Kết quả này phù hợp với kỳ vọng: người dùng hiện đang sử dụng gói trả phí có khả năng tiếp tục đăng ký Premium cao hơn đáng kể so với nhóm tài khoản miễn phí.
Trong nhóm preffered_premium_plan:
Người dùng chọn gói Individual Plan – Rs 119/month có hệ số ước lượng dương (0.45665) và có ý nghĩa thống kê ở mức 5% (p = 0.03347), thể hiện xu hướng sẵn sàng trả phí cao hơn nhóm tham chiếu.
Người không có nhu cầu chọn gói nào (None) có hệ số âm lớn (-1.98233) và p-value gần bằng 0, cho thấy rất không có khả năng đăng ký Premium – kết quả này hoàn toàn phù hợp với kỳ vọng lý thuyết.
Những người chọn Student Plan – Rs 59/month có hệ số âm (-0.35805) và p-value = 0.09315, cho thấy có thể có xu hướng ít sẵn sàng hơn, tuy nhiên chỉ có ý nghĩa ở mức 10%.
Biến preferred_listening_contentPodcast tiếp tục có ảnh hưởng tích cực (hệ số = 0.57120) và có ý nghĩa thống kê ở mức 1% (p = 0.00158). Điều này cho thấy người thích nghe podcast có khả năng cao hơn trong việc đăng ký Spotify Premium – một xu hướng đáng chú ý về thói quen tiêu dùng âm thanh.
Các biến về thời gian sử dụng (spotify_usage_period) đều không có ý nghĩa thống kê đáng kể (p > 0.1). Như vậy, thời lượng gắn bó với nền tảng Spotify không phải là yếu tố chính ảnh hưởng đến hành vi sẵn sàng trả phí.
Mô hình hồi quy Probit tiếp tục khẳng định rằng các yếu tố ảnh hưởng mạnh mẽ nhất đến hành vi sẵn sàng đăng ký Spotify Premium là tình trạng tài khoản hiện tại, sự ưu tiên đối với các gói Premium cụ thể, và loại nội dung nghe yêu thích. Việc sử dụng mô hình Probit nhằm kiểm tra tính nhất quán với mô hình Logit, và kết quả cho thấy các yếu tố quan trọng vẫn giữ nguyên tính chất và ý nghĩa thống kê, từ đó làm tăng độ tin cậy cho kết luận nghiên cứu.
Ta tiếp tục với mô hình hồi quy Cloglog
mohinh3 <- glm(premium ~ spotify_usage_period + spotify_subscription_plan + preffered_premium_plan + preferred_listening_content, data = spotify1,family = binomial(link = "cloglog"))
summary(mohinh3)
##
## Call:
## glm(formula = premium ~ spotify_usage_period + spotify_subscription_plan +
## preffered_premium_plan + preferred_listening_content, family = binomial(link = "cloglog"),
## data = spotify1)
##
## Coefficients:
## Estimate Std. Error
## (Intercept) -0.62814 0.23952
## spotify_usage_period6 months to 1 year -0.07162 0.21304
## spotify_usage_periodLess than 6 months -0.53477 0.30616
## spotify_usage_periodMore than 2 years 0.30084 0.21060
## spotify_subscription_planPremium (paid subscription) 0.66573 0.17548
## preffered_premium_planFamily Plan-Rs 179/month 0.01362 0.27062
## preffered_premium_planIndividual Plan- Rs 119/ month 0.58217 0.22100
## preffered_premium_planNone -3.22752 0.48208
## preffered_premium_planStudent Plan-Rs 59/month -0.35067 0.24749
## preferred_listening_contentPodcast 0.71319 0.19612
## z value Pr(>|z|)
## (Intercept) -2.622 0.008731 **
## spotify_usage_period6 months to 1 year -0.336 0.736726
## spotify_usage_periodLess than 6 months -1.747 0.080692 .
## spotify_usage_periodMore than 2 years 1.428 0.153156
## spotify_subscription_planPremium (paid subscription) 3.794 0.000148 ***
## preffered_premium_planFamily Plan-Rs 179/month 0.050 0.959851
## preffered_premium_planIndividual Plan- Rs 119/ month 2.634 0.008431 **
## preffered_premium_planNone -6.695 2.16e-11 ***
## preffered_premium_planStudent Plan-Rs 59/month -1.417 0.156513
## preferred_listening_contentPodcast 3.636 0.000276 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 678.16 on 519 degrees of freedom
## Residual deviance: 406.52 on 510 degrees of freedom
## AIC: 426.52
##
## Number of Fisher Scoring iterations: 7
Kết quả phân tích hệ số:
Biến spotify_subscription_planPremium (paid subscription) tiếp tục có hệ số dương (0.66573) và ý nghĩa thống kê rất cao với p-value < 0.001. Kết quả này cho thấy người dùng hiện tại đang sử dụng tài khoản Premium có khả năng sẵn sàng tiếp tục đăng ký cao hơn hẳn so với người dùng miễn phí – một phát hiện nhất quán với các mô hình trước.
Trong nhóm preffered_premium_plan:
Người dùng chọn gói Individual Plan – Rs 119/month có hệ số dương (0.58217) và có ý nghĩa ở mức 1% (p = 0.008431), phản ánh mức độ sẵn sàng đăng ký cao hơn so với nhóm tham chiếu.
Người không chọn bất kỳ gói nào (None) có hệ số âm rất lớn (-3.22752) và p-value gần như bằng 0, cho thấy gần như không có khả năng sẵn sàng trả phí. Đây là một kết quả hợp lý về mặt logic.
Người chọn Student Plan – Rs 59/month có hệ số âm (-0.35067), tuy nhiên p-value = 0.156 cho thấy chưa đủ bằng chứng thống kê rõ ràng về tác động.
Biến preferred_listening_contentPodcast có hệ số dương khá lớn (0.71319) và ý nghĩa rất cao (p = 0.000276). Điều này cho thấy người dùng thích nghe podcast có khả năng cao hơn trong việc sẵn sàng trả phí – một xu hướng ngày càng phổ biến trong hành vi tiêu dùng nội dung âm thanh.
Các biến về thời gian sử dụng Spotify (spotify_usage_period) tiếp tục không có ý nghĩa thống kê ở mọi mức ý nghĩa. Điều này cho thấy thời gian sử dụng nền tảng không phải là yếu tố chi phối hành vi sẵn sàng đăng ký Premium.
| Biến độc lập | Logit Estimate | p-value | Probit Estimate | p-value | Clog-log Estimate | p-value |
|---|---|---|---|---|---|---|
| (Intercept) | -0.278 | 0.431 | -0.167 | 0.431 | -0.628 | 0.008 |
spotify_usage_period: 6 months–1 year |
-0.051 | 0.879 | -0.033 | 0.865 | -0.072 | 0.737 |
spotify_usage_period: < 6 months |
-0.713 | 0.088 | -0.392 | 0.108 | -0.535 | 0.082 |
spotify_usage_period: > 2 years |
0.349 | 0.282 | 0.253 | 0.179 | 0.300 | 0.154 |
subscription_plan: Premium (paid) |
1.182 | 0.000 | 0.677 | 0.000 | 0.666 | 0.000 |
preferred_plan: Family (Rs 179/month) |
0.104 | 0.814 | 0.037 | 0.889 | 0.014 | 0.960 |
preferred_plan: Individual (Rs 119/month) |
0.750 | 0.037 | 0.457 | 0.033 | 0.582 | 0.008 |
preferred_plan: None |
-3.665 | 0.000 | -1.983 | 0.000 | -3.227 | 0.000 |
preferred_plan: Student (Rs 59/month) |
-0.549 | 0.120 | -0.358 | 0.093 | -0.351 | 0.156 |
preferred_listening: Podcast |
0.989 | 0.002 | 0.571 | 0.001 | 0.713 | 0.000 |
* p < 0.1, ** p < 0.05, *** p < 0.01
Dựa trên bảng tổng hợp kết quả hồi quy từ ba mô hình (Logit, Probit, Clog-log), ta có thể rút ra một số nhận định quan trọng về tác động của các biến độc lập đến xác suất người dùng lựa chọn gói Premium trên Spotify như sau:
Hệ số của biến này dương và có ý nghĩa thống kê (p < 0.05) trong cả ba mô hình. Điều này cho thấy rằng nếu người dùng có nhu cầu với gói cá nhân thì khả năng họ chọn Premium cao hơn rõ rệt so với các nhóm khác. Điều này có thể gợi ý rằng gói cá nhân là phân khúc thị trường hiệu quả nhất để thu hút người dùng nâng cấp.
Biến này có hệ số dương và ý nghĩa thống kê cao (p < 0.01 hoặc < 0.05) trong tất cả mô hình. Điều này chỉ ra rằng người dùng có xu hướng thích nghe podcast có xác suất chọn Premium cao hơn đáng kể, có thể do họ mong muốn tiếp cận nội dung độc quyền hoặc không bị gián đoạn bởi quảng cáo.
Biến này mang hệ số âm trong cả ba mô hình, và gần đạt mức ý nghĩa thống kê trong mô hình Clog-log (p = 0.082). Điều này cho thấy người dùng mới (mới sử dụng dưới 6 tháng) có xu hướng chưa sẵn sàng chi trả cho Premium, có thể vì chưa thấy rõ giá trị của việc nâng cấp.
Mặc dù hệ số dương trong cả ba mô hình, biến này không có ý nghĩa thống kê trong bất kỳ mô hình nào. Tuy nhiên, xu hướng tăng vẫn đáng lưu ý – người dùng lâu năm có thể nhận ra giá trị sử dụng lâu dài và cân nhắc nâng cấp, nhưng không đủ mạnh để kết luận chắc chắn.
Gói mong muốn: Student Plan (59k/tháng) có hệ số âm và không ý nghĩa thống kê, điều này cho thấy đối tượng sinh viên có xu hướng ít chọn Premium hơn, có thể do nhạy cảm về giá.
Gói mong muốn: Family Plan không có tác động rõ rệt và không mang ý nghĩa thống kê trong cả ba mô hình.
Thời gian dùng từ 6 tháng đến 1 năm không có ảnh hưởng đáng kể và không có ý nghĩa thống kê.
Qua phân tích chi tiết, có thể nhận thấy một số yếu tố ảnh hưởng
rõ rệt và nhất quán đến hành vi chọn gói Premium của
người dùng Spotify, bao gồm:
- Việc đã từng đăng ký gói Premium,
Nhu cầu chọn gói cá nhân,
Sở thích nghe podcast,
Và ngược lại, người không có nhu cầu nâng cấp hay mới sử dụng dưới 6 tháng có xác suất chọn Premium rất thấp.
Kết quả này cung cấp cơ sở đáng tin cậy để Spotify có thể điều chỉnh chiến lược tiếp thị, tập trung vào nhóm người dùng tiềm năng như người thích podcast và người có nhu cầu sử dụng cá nhân – đồng thời xây dựng trải nghiệm giúp người dùng mới thấy rõ giá trị của việc nâng cấp lên Premium.
Sau khi tiến hành xây dựng ba mô hình hồi quy nhị phân bao gồm Logit, Probit và Clog-log, bước tiếp theo trong quá trình nghiên cứu là so sánh hiệu quả dự báo của các mô hình để lựa chọn mô hình tối ưu. Việc đánh giá được thực hiện dựa trên ba tiêu chí phổ biến và được chấp nhận rộng rãi trong nghiên cứu định lượng: AIC (Akaike Information Criterion), BIC (Bayesian Information Criterion) và Brier Score.
Bảng dưới đây trình bày chi tiết các giá trị của ba tiêu chí đánh giá được tính toán cho từng mô hình:
| Tiêu chí đánh giá | Mô hình Logit | Mô hình Probit | Mô hình Clog-log |
|---|---|---|---|
| AIC | 428.60 | 428.17 | 426.52 |
| BIC | 468.26 | 467.84 | 466.19 |
| Brier Score | 0.104 | 0.103 | 0.101 |
AIC (Akaike Information Criterion): AIC là chỉ số đo lường mức độ phù hợp của mô hình với dữ liệu thực tế, đồng thời có tính đến số lượng tham số nhằm tránh tình trạng mô hình quá phức tạp (overfitting). Trong kết quả thu được, mô hình Clog-log có giá trị AIC thấp nhất (426.52), cho thấy đây là mô hình phù hợp nhất trong việc cân bằng giữa độ chính xác và mức độ đơn giản của mô hình.
BIC (Bayesian Information Criterion): Tương tự AIC nhưng có mức phạt cao hơn cho mô hình có nhiều biến, BIC là một tiêu chí thận trọng hơn trong việc đánh giá hiệu quả mô hình. Kết quả BIC cũng cho thấy mô hình Clog-log là lựa chọn tối ưu với BIC = 466.19 – thấp hơn cả Logit và Probit.
Brier Score: Đây là chỉ số đo lường sai số trung bình bình phương giữa xác suất dự báo và giá trị thực tế (0 hoặc 1). Brier Score càng nhỏ, độ chính xác của xác suất dự báo càng cao. Mô hình Clog-log tiếp tục thể hiện ưu thế khi có Brier Score thấp nhất (0.101), trong khi Logit và Probit lần lượt là 0.104 và 0.103.
Dựa trên ba tiêu chí đánh giá, có thể thấy rằng mô hình Clog-log consistently outperform các mô hình còn lại về cả độ phù hợp (AIC và BIC) lẫn độ chính xác trong dự báo xác suất (Brier Score). Điều này cho thấy hàm liên kết Complementary Log-log là lựa chọn phù hợp nhất cho bài toán dự đoán khả năng chọn gói Premium của người dùng Spotify.
Về mặt bản chất, mô hình Clog-log thường được đánh giá là phù hợp hơn trong các tình huống mà xác suất xảy ra sự kiện cần dự đoán (ở đây là chọn gói Premium) có xu hướng rất thấp hoặc rất cao, tức là không đối xứng quanh 0.5. Điều này khá phù hợp với bối cảnh nghiên cứu vì hành vi nâng cấp lên gói trả phí của người dùng có thể không phân bố đồng đều – chỉ một phần nhỏ người dùng thực sự lựa chọn đăng ký Premium.
Mặc dù mô hình Logit và Probit cũng cho kết quả khá tương đồng, nhưng giá trị AIC và Brier Score của chúng đều cao hơn mô hình Clog-log, cho thấy mức độ dự báo kém hơn nhẹ. Hơn nữa, sự khác biệt về BIC càng củng cố lựa chọn ưu tiên mô hình Clog-log.
Sau khi tiến hành xây dựng và phân tích ba mô hình hồi quy nhị phân sử dụng các hàm liên kết khác nhau (logit, probit và cloglog), có thể nhận thấy một số yếu tố có ảnh hưởng rõ rệt và nhất quán đến hành vi sẵn sàng đăng ký gói Spotify Premium của người dùng.
Yếu tố có ảnh hưởng mạnh mẽ và rõ ràng nhất trong cả ba mô hình chính là loại tài khoản hiện tại của người dùng (spotify_subscription_plan). Cụ thể, biến Premium (paid subscription) có hệ số dương và mang ý nghĩa thống kê rất cao (p-value < 0.001) ở cả ba mô hình. Điều này cho thấy, người dùng hiện đang sử dụng gói Premium miễn phí dùng thử hoặc có trải nghiệm trả phí trước đây sẽ có xác suất cao hơn đáng kể trong việc sẵn sàng tiếp tục đăng ký dịch vụ này. Đây là một phát hiện quan trọng, bởi nó phản ánh hiệu quả của chiến lược trải nghiệm dịch vụ miễn phí hoặc có giới hạn của Spotify trong việc thúc đẩy hành vi tiêu dùng trả phí.
Tiếp theo, biến preffered_premium_plan – đại diện cho gói Premium mà người dùng mong muốn – cũng có ảnh hưởng đến hành vi đăng ký, nhưng mức độ ảnh hưởng có sự khác biệt giữa các nhóm. Đáng chú ý là nhóm người dùng chọn gói “Individual Plan – Rs 119/month” có hệ số dương và mang ý nghĩa thống kê ở mức 5% đến 1% trong cả ba mô hình. Điều này cho thấy đây là nhóm người dùng mục tiêu tiềm năng, có xu hướng cao chuyển sang trả phí. Ngược lại, nhóm không chọn bất kỳ gói nào (giá trị None) có hệ số âm rất lớn và ý nghĩa thống kê cực kỳ cao (p-value gần như bằng 0), cho thấy rào cản lớn trong việc chuyển đổi họ sang người dùng trả phí.
Cuối cùng, biến preferred_listening_content – đại diện cho nội dung nghe yêu thích – cũng cho thấy ảnh hưởng đáng kể đến hành vi đăng ký. Những người có sở thích nghe Podcast có hệ số dương và có ý nghĩa thống kê ở mức cao (p < 0.01 hoặc p < 0.001), phản ánh xu hướng người tiêu dùng hiện đại đánh giá cao các nội dung chuyên biệt và sẵn sàng chi trả để tiếp cận chúng chất lượng hơn.
Trong khi đó, biến thời gian sử dụng Spotify (spotify_usage_period) tuy được đưa vào mô hình nhưng không mang ý nghĩa thống kê trong bất kỳ mô hình nào. Điều này cho thấy việc sử dụng Spotify trong thời gian dài hay ngắn không có ảnh hưởng rõ rệt đến khả năng đăng ký gói Premium – một phát hiện khá thú vị, bởi nó phản ánh rằng thói quen sử dụng chưa đủ để quyết định hành vi chi tiêu, mà yếu tố trải nghiệm và nhu cầu nội dung mới là then chốt.
Trong bối cảnh nền tảng nghe nhạc trực tuyến ngày càng phổ biến và mang tính cá nhân hóa cao như Spotify, việc hiểu rõ hành vi và xu hướng tiêu dùng âm nhạc của người dùng trở thành một yếu tố then chốt để phát triển sản phẩm, tối ưu dịch vụ và nâng cao tỷ lệ chuyển đổi sang mô hình thu phí. Thông qua việc phân tích dữ liệu định tính từ 520 người dùng Spotify, bài tiểu luận đã tiến hành mô tả và kiểm định mối quan hệ giữa các đặc điểm người dùng và hành vi sẵn sàng đăng ký gói Premium – một dạng hành vi tiêu dùng trả phí điển hình.
Bằng cách áp dụng ba mô hình hồi quy nhị phân (logit, probit và cloglog), kết quả phân tích đã xác định được một số yếu tố ảnh hưởng có ý nghĩa thống kê và thực tiễn đến hành vi đăng ký Premium. Trong đó, trải nghiệm trước với gói Premium và gói đăng ký mong muốn là những yếu tố nổi bật, cho thấy vai trò quan trọng của chiến lược dùng thử và thiết kế gói giá phù hợp. Bên cạnh đó, loại nội dung yêu thích – đặc biệt là Podcast – cũng góp phần định hình hành vi chi trả của người dùng. Ngược lại, yếu tố thời gian sử dụng nền tảng tuy được kỳ vọng có ảnh hưởng nhưng thực tế lại không mang ý nghĩa thống kê rõ rệt, cho thấy rằng thói quen sử dụng đơn thuần chưa đủ để thúc đẩy hành vi tiêu dùng có cam kết tài chính.
Kết quả nghiên cứu không chỉ cung cấp cái nhìn thực tiễn về hành vi giải trí của người dùng số, mà còn cho thấy tiềm năng ứng dụng của phân tích dữ liệu định tính và mô hình thống kê trong việc hỗ trợ ra quyết định trong lĩnh vực marketing số, quản lý sản phẩm và tối ưu hóa trải nghiệm người dùng. Đây là minh chứng rõ ràng cho giá trị của dữ liệu hành vi trong việc thiết kế các chiến lược tăng trưởng hiệu quả hơn.
Gói Individual Plan là gói được người dùng thể hiện mức độ sẵn sàng chi trả cao nhất trong phân tích. Điều này gợi ý rằng:
Đây là gói “điểm ngọt” (sweet spot) về giá trị với mức chi phí vừa phải, phù hợp với khả năng chi trả của phần lớn người dùng cá nhân.
Nên tăng cường các ưu đãi hoặc khuyến mãi ngắn hạn cho gói này để kích thích quyết định chuyển đổi.
Tập trung nội dung truyền thông và cá nhân hóa gợi ý gói này đến nhóm người dùng có xu hướng trả phí tiềm năng (ví dụ: người từng nghe Podcast nhiều, hoặc đã từng dùng thử Premium).
Người dùng yêu thích Podcast có khả năng cao hơn chuyển sang trả phí. Điều này phản ánh rằng:
Podcast không chỉ là nội dung giải trí, mà còn là công cụ giữ chân và thúc đẩy người dùng chi trả.
Spotify nên phát triển thêm nội dung podcast độc quyền, bản quyền cao cấp, đồng thời hợp tác với người nổi tiếng, chuyên gia, influencer… để tạo chuỗi nội dung podcast giá trị
Phân tích chỉ ra rằng nhóm người dùng không quan tâm đến bất kỳ gói Premium nào có xác suất rất thấp chuyển sang trả phí. Thay vì tiếp tục tiêu tốn ngân sách quảng cáo vào nhóm này, nên:
Tập trung tài nguyên vào các nhóm đã có tín hiệu quan tâm;
Đưa nhóm này vào chiến dịch chăm sóc dài hạn (như gợi ý nội dung mới, podcast miễn phí), tạo sự gắn kết dần dần thay vì thúc ép chuyển đổi ngay.