library(readr)
## Warning: package 'readr' was built under R version 4.3.3
library(data.table)
library(ggplot2)
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.3.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:data.table':
##
## between, first, last
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(skimr)
## Warning: package 'skimr' was built under R version 4.3.3
library(psych)
## Warning: package 'psych' was built under R version 4.3.3
##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
library(csv)
## Warning: package 'csv' was built under R version 4.3.3
library(DT)
library(pander)
## Warning: package 'pander' was built under R version 4.3.3
library(formattable)
## Warning: package 'formattable' was built under R version 4.3.3
library(htmltools)
##
## Attaching package: 'htmltools'
## The following object is masked from 'package:pander':
##
## p
library(DescTools)
## Warning: package 'DescTools' was built under R version 4.3.3
##
## Attaching package: 'DescTools'
## The following objects are masked from 'package:psych':
##
## AUC, ICC, SD
## The following object is masked from 'package:data.table':
##
## %like%
library(epitools)
library(pscl)
## Warning: package 'pscl' was built under R version 4.3.3
## Classes and Methods for R originally developed in the
## Political Science Computational Laboratory
## Department of Political Science
## Stanford University (2002-2015),
## by and under the direction of Simon Jackman.
## hurdle and zeroinfl functions by Achim Zeileis.
Chất lượng cuộc sống là một chỉ báo tổng hợp, phản ánh mức độ phát triển bền vững và khả năng đáp ứng nhu cầu sống cơ bản lẫn nâng cao của người dân trong một quốc gia. Trong bối cảnh toàn cầu hóa và cạnh tranh quốc tế ngày càng gia tăng, chất lượng cuộc sống không chỉ là vấn đề xã hội mà còn trở thành tiêu chí quan trọng trong hoạch định chính sách công, thu hút đầu tư và nâng cao năng lực cạnh tranh quốc gia.
Tuy nhiên, chất lượng cuộc sống là một khái niệm đa chiều, chịu tác động bởi nhiều yếu tố khác nhau như sức mua, mức độ an toàn, hệ thống y tế, điều kiện khí hậu, ô nhiễm, giao thông, giá cả sinh hoạt,… Chính vì vậy, việc đo lường và lượng hóa tác động của từng yếu tố đối với chất lượng sống là thách thức lớn, đòi hỏi cách tiếp cận khoa học, hệ thống và dựa trên nền tảng định lượng vững chắc.
Từ thực tiễn đó, đề tài lựa chọn khai thác bộ dữ liệu công khai từ nền tảng Kaggle về các chỉ số xã hội và kinh tế. Bộ dữ liệu cung cấp thông tin phong phú cho hơn 200 quốc gia và vùng lãnh thổ, kết hợp giữa biến định lượng và định tính, bao gồm các chỉ số về sức mua, an toàn, chất lượng chăm sóc y tế, khí hậu, chi phí sinh hoạt, giá nhà, ô nhiễm, giao thông và chất lượng sống tổng thể. Dữ liệu có độ bao phủ toàn cầu, cập nhật liên tục và phản ánh tương đối sát thực tế đời sống tại các quốc gia, tạo điều kiện thuận lợi cho việc khai thác phân tích thống kê.
Đề tài sử dụng các mô hình hồi quy xác suất, bao gồm cả tuyến tính và phi tuyến (logit, probit và cloglog), nhằm kiểm định và đánh giá mức độ ảnh hưởng của từng yếu tố lên xác suất đạt được mức chất lượng sống cao. Thông qua đó, nghiên cứu không chỉ cung cấp cái nhìn định lượng rõ ràng về mối quan hệ nhân quả giữa các yếu tố xã hội chủ chốt, mà còn có thể đề xuất các khuyến nghị mang tính thực tiễn, góp phần hỗ trợ quá trình xây dựng chính sách công, quy hoạch đô thị hoặc định hướng các nghiên cứu liên ngành về phát triển con người.
Mục tiêu chung
Đề tài nhằm phân tích các yếu tố có thể ảnh hưởng đến chất lượng cuộc sống tại các quốc gia khác nhau trên thế giới, thông qua việc ứng dụng các mô hình phân tích định lượng trên bộ dữ liệu từ Numbeo. Qua đó, nghiên cứu góp phần nhận diện những yếu tố nổi bật giúp nâng cao chất lượng sống, đồng thời minh chứng cho vai trò của dữ liệu và mô hình hồi quy trong việc giải thích các hiện tượng xã hội.
Mục tiêu chi tiết
Đề tài hướng đến việc làm rõ khái niệm chất lượng cuộc sống dưới góc nhìn định lượng và xác định các yếu tố chính có khả năng ảnh hưởng đến chỉ số này, bao gồm sức mua, mức độ an toàn, chất lượng y tế, khí hậu và các điều kiện sống liên quan. Nghiên cứu thực hiện quá trình xử lý và làm sạch bộ dữ liệu từ Numbeo để phù hợp với các mô hình phân tích thống kê. Tiếp theo, các mô hình hồi quy xác suất tuyến tính và phi tuyến tính như logit, probit và cloglog được áp dụng nhằm kiểm định mức độ tác động của từng yếu tố đến khả năng đạt được chất lượng sống cao. Trên cơ sở kết quả mô hình, nghiên cứu sẽ so sánh mức độ phù hợp và ý nghĩa thống kê của các yếu tố, từ đó nhận diện những yếu tố có ảnh hưởng rõ rệt nhất. Cuối cùng, đề tài đưa ra một số gợi ý mang tính định hướng nhằm nâng cao chất lượng cuộc sống cũng như tạo tiền đề cho các nghiên cứu tiếp theo đi sâu vào từng khu vực hoặc nhóm dân cư cụ thể.
Đối tượng nghiên cứu
Đối tượng nghiên cứu của đề tài là mối quan hệ giữa các yếu tố kinh tế – xã hội và khả năng đạt được chất lượng cuộc sống cao tại các quốc gia. Cụ thể, nghiên cứu xem xét mức độ tác động của các yếu tố như sức mua, mức độ an toàn, chất lượng y tế và điều kiện khí hậu đến xác suất một quốc gia được đánh giá là có chất lượng sống cao.
Phạm vi nghiên cứu
Về không gian: Đề tài sử dụng dữ liệu được thu thập từ nền tảng Kaggle, bao gồm thông tin của hơn 200 quốc gia và vùng lãnh thổ trên toàn thế giới. Tuy nhiên, dữ liệu thực tế được xử lý sau khi loại bỏ những quan sát thiếu thông tin.
Về thời gian: Dữ liệu được cập nhật vào năm 2024 tại thời điểm tải về từ trang Kaggle.
Về nội dung: Nghiên cứu tập trung vào phân tích các yếu tố: sức mua, mức độ an toàn, chất lượng y tế và khí hậu. Tuy nhiên, thông qua phân tích định lượng, hai biến có ảnh hưởng rõ rệt và ổn định là sức mua và mức độ an toàn được giữ lại trong các mô hình chính thức.
Về phương pháp: Đề tài sử dụng các mô hình hồi quy xác suất nhị phân, bao gồm: logit, probit và cloglog để kiểm định tác động của các yếu tố lên xác suất đạt chất lượng sống cao. Dữ liệu được xử lý và phân tích bằng phần mềm R.
Chương 1: Tổng quan nghiên cứu
Chương 2: Dữ liệu nghiên cứu
Chương 3: Phân tích và kết quả
Chương 4: Kết luận và kiến nghị
Bộ dữ liệu được sử dụng trong nghiên cứu này cung cấp một cái nhìn toàn diện về các chỉ số phản ánh chất lượng cuộc sống tại nhiều quốc gia, được tổng hợp từ trang Kaggle về các chỉ số sinh hoạt do người dùng đóng góp. Dữ liệu bao gồm nhiều yếu tố đa dạng như sức mua, mức độ an toàn, chất lượng dịch vụ y tế, điều kiện khí hậu, chi phí sinh hoạt, giá bất động sản, tình trạng giao thông, mức độ ô nhiễm và chất lượng cuộc sống tổng thể với 263 quan sát tương đương với 263 quốc gia và 18 biến (9 biến định lượng và 9 biến định tính) . Các chỉ số này được thể hiện dưới dạng điểm số định lượng kết hợp với phân loại mô tả, nhằm mang lại cái nhìn sâu sắc và đa chiều về môi trường sống tại từng quốc gia.
# Đọc bộ dữ liệu
d <- read.csv("D:/naaaaaa/PTDLDT/Quality_of_Life.csv")
data.table(d)
## country Purchasing.Power.Value Purchasing.Power.Category
## 1: Afghanistan 32.15 Low
## 2: Aland Islands 125.01 High
## 3: Albania 42.82 Low
## 4: Alderney 0.00 Low
## 5: Algeria 27.60 Low
## ---
## 232: Wallis And Futuna 0.00 Low
## 233: Western Sahara 0.00 Low
## 234: Yemen 20.74 Low
## 235: Zambia 22.32 Low
## 236: Zimbabwe 28.76 Low
## Safety.Value Safety.Category Health.Care.Value Health.Care.Category
## 1: 25.33 Low 24.24 Low
## 2: 71.81 High 79.72 High
## 3: 55.52 High 48.21 High
## 4: 83.79 High 100.00 High
## 5: 47.54 High 54.43 High
## ---
## 232: 0.00 Low 0.00 Low
## 233: 62.87 High 0.00 Low
## 234: 34.07 Low 25.31 Low
## 235: 54.39 High 54.44 High
## 236: 39.31 Low 44.80 High
## Climate.Value Climate.Category Cost.of.Living.Value
## 1: 0.00 Low 21.08
## 2: 0.00 Low 53.44
## 3: 86.43 High 40.85
## 4: 0.00 Low 0.00
## 5: 94.82 High 25.31
## ---
## 232: 0.00 Low 0.00
## 233: 0.00 Low 0.00
## 234: 0.00 Low 48.66
## 235: 0.00 Low 36.74
## 236: 96.76 High 35.36
## Cost.of.Living.Category Property.Price.to.Income.Value
## 1: Low 7.8
## 2: Low 5.33
## 3: Low 14.88
## 4: Low 0
## 5: Low 21.7
## ---
## 232: Low 0
## 233: Low 12.75
## 234: Low 15.98
## 235: Low 72.42
## 236: Low 17.35
## Property.Price.to.Income.Category Traffic.Commute.Time.Value
## 1: Low 56.17
## 2: Low 19.05
## 3: High 36.74
## 4: Low 5.00
## 5: High 45.09
## ---
## 232: Low 0.00
## 233: High 0.00
## 234: High 15.00
## 235: High 38.86
## 236: High 27.79
## Traffic.Commute.Time.Category Pollution.Value Pollution.Category
## 1: High 84.44 High
## 2: Low 18.05 Low
## 3: High 77.25 High
## 4: Low 1.72 Low
## 5: High 63.87 High
## ---
## 232: Low 0.00 Low
## 233: Low 0.00 Low
## 234: Low 83.17 High
## 235: High 80.90 High
## 236: Low 78.53 High
## Quality.of.Life.Value Quality.of.Life.Category
## 1: 0.00 Low
## 2: 0.00 Low
## 3: 104.16 Low
## 4: 0.00 Low
## 5: 98.83 Low
## ---
## 232: 0.00 Low
## 233: 0.00 Low
## 234: 0.00 Low
## 235: 0.00 Low
## 236: 94.20 Low
Để phù hợp với mục tiêu nghiên cứu, đề tài chỉ tập trung phân tích các biến định tính liên quan đến chất lượng cuộc sống. Việc lựa chọn nhóm biến này giúp làm nổi bật các yếu tố mang tính cảm nhận và đánh giá chủ quan của người dân, đồng thời phù hợp với cách tiếp cận bằng các mô hình hồi quy xác suất phi tuyến.
# Tạo biến định tính
bdt <- c( "Purchasing.Power.Category", "Safety.Category", "Health.Care.Category", "Climate.Category", "Cost.of.Living.Category", "Property.Price.to.Income.Category", "Traffic.Commute.Time.Category", "Pollution.Category", "Quality.of.Life.Category" )
# Tạo bộ dữ liệu mới chỉ có biến định tính
dt <- d[, bdt]
dt <- data.frame(lapply(dt, as.factor))
data.table(dt)
## Purchasing.Power.Category Safety.Category Health.Care.Category
## 1: Low Low Low
## 2: High High High
## 3: Low High High
## 4: Low High High
## 5: Low High High
## ---
## 232: Low Low Low
## 233: Low High Low
## 234: Low Low Low
## 235: Low High High
## 236: Low Low High
## Climate.Category Cost.of.Living.Category Property.Price.to.Income.Category
## 1: Low Low Low
## 2: Low Low Low
## 3: High Low High
## 4: Low Low Low
## 5: High Low High
## ---
## 232: Low Low Low
## 233: Low Low High
## 234: Low Low High
## 235: Low Low High
## 236: High Low High
## Traffic.Commute.Time.Category Pollution.Category Quality.of.Life.Category
## 1: High High Low
## 2: Low Low Low
## 3: High High Low
## 4: Low Low Low
## 5: High High Low
## ---
## 232: Low Low Low
## 233: Low Low Low
## 234: Low High Low
## 235: High High Low
## 236: Low High Low
Purchasing Power Category (Mức độ sức mua): phản ánh khả năng chi tiêu của người dân tại từng quốc gia, được phân loại theo mức cao hoặc thấp.
Safety Category (Mức độ an toàn): thể hiện cảm nhận về sự an toàn trong xã hội.
Health Care Category (Chất lượng y tế): mô tả đánh giá của người dân đối với hệ thống y tế.
Climate Category (Điều kiện khí hậu): phản ánh sự hài lòng về khí hậu, thời tiết.
Cost of Living Category (Chi phí sinh hoạt): mô tả mức độ đắt đỏ.
Property Price to Income Category (Tỷ lệ giá bất động sản so với thu nhập): cho biết mức độ khả năng mua nhà của người dân thông qua tỷ lệ giữa giá nhà và thu nhập trung bình.
Traffic Commute Time Category (Thời gian di chuyển giao thông): phản ánh cảm nhận về tình trạng giao thông, đặc biệt là thời gian đi lại trung bình mỗi ngày.
Pollution Category (Mức độ ô nhiễm): thể hiện nhận định về tình trạng ô nhiễm không khí, tiếng ồn, nguồn nước và môi trường tổng thể.
Quality of Life Category (Chất lượng sống): là biến phụ thuộc chính trong nghiên cứu, tổng hợp đánh giá chung về mức sống, điều kiện sinh hoạt và mức độ hài lòng của người dân.
Trong nghiên cứu này, biến phụ thuộc được lựa chọn là Quality of Life Category – đại diện cho chất lượng sống tổng thể tại mỗi quốc gia, được mã hóa dưới dạng định tính (cao/thấp). Các biến độc lập gồm: Purchasing Power, Safety, Health Care, và Climate đều mang tính chất phân loại và phản ánh các yếu tố chủ quan trong đánh giá của người dân. Do biến phụ thuộc là biến định tính nhị phân, nghiên cứu áp dụng các mô hình hồi quy phi tuyến (logit, probit, cloglog) để phân tích mối quan hệ giữa các yếu tố trên và khả năng thuộc nhóm chất lượng sống cao.
Bảng tần số
table(factor(dt$Quality.of.Life.Category,
levels = c("High", "Low"),
labels = c("Chất lượng cuộc sống cao", "Chất lượng cuộc sống thấp")))
##
## Chất lượng cuộc sống cao Chất lượng cuộc sống thấp
## 69 167
Bảng tần suất
table(factor(dt$Quality.of.Life.Category,
levels = c("High", "Low"),
labels = c("Chất lượng cuộc sống cao", "Chất lượng cuộc sống thấp"))) / length(dt$Quality.of.Life.Category)
##
## Chất lượng cuộc sống cao Chất lượng cuộc sống thấp
## 0.2923729 0.7076271
Biểu đồ
library(ggplot2)
# Đặt factor với labels tiếng Việt
dt$Quality <- factor(trimws(dt$Quality.of.Life.Category),
levels = c("High", "Low"),
labels = c("Chất lượng cuộc sống cao", "Chất lượng cuộc sống thấp"))
# Tạo bảng tần số
muc_chatluong <- table(dt$Quality)
# Đưa về dạng data frame
df_chatluong <- as.data.frame(prop.table(table(dt$Quality)))
colnames(df_chatluong) <- c("MucChatLuong", "Count")
# Tính phần trăm và thêm nhãn
df_chatluong$Percent <- round(df_chatluong$Count / sum(df_chatluong$Count) * 100, 1)
df_chatluong$Label <- paste0(df_chatluong$Percent, "%")
# Vẽ biểu đồ tròn
ggplot(df_chatluong, aes(x = "", y = Count, fill = MucChatLuong)) +
geom_bar(stat = "identity", width = 1) +
coord_polar(theta = "y") +
geom_text(aes(label = Label), position = position_stack(vjust = 0.5)) +
labs(title = "Biểu đồ 3.1: Phân bố mức độ chất lượng cuộc sống") +
theme_void() +
theme(plot.title = element_text(hjust = 0.5))
Nhận xét
Dựa vào biểu đồ 3.1 cho thấy, trong toàn bộ dữ liệu, chỉ khoảng 29% các quốc gia được xếp vào nhóm có chất lượng cuộc sống cao, trong khi đó 70.8% còn lại rơi vào nhóm chất lượng cuộc sống thấp. Điều này phản ánh một sự mất cân đối đáng kể giữa hai nhóm. Kết quả này cho thấy rằng đa số người dân tại các quốc gia trong tập dữ liệu không cảm nhận được cuộc sống của họ ở mức cao — đây có thể là hệ quả từ nhiều yếu tố như mức sống chưa đảm bảo, an toàn xã hội thấp, chi phí sinh hoạt cao hoặc chất lượng dịch vụ y tế, môi trường còn nhiều hạn chế.
Kiểm định Chi bình phương là một phương pháp thống kê thường được sử dụng để đánh giá mối liên hệ giữa hai biến phân loại. Cụ thể, phương pháp này kiểm tra xem sự phân bố của một biến có phụ thuộc vào biến còn lại hay không, thông qua việc so sánh giữa tần suất quan sát thực tế và tần suất kỳ vọng trong bảng phân phối chéo.
Công thức tính giá trị thống kê Chi bình phương được thể hiện như sau:
\[ \chi^2 = \sum_{i,j} \frac{(n_{ij} - \hat{\mu}_{ij})^2}{\hat{\mu}_{ij}} \]
Giả thuyết kiểm định
\(H_0\): Chất lượng cuộc sống và Sức mua thực tế là hai biến độc lập.
\(H_1\): Chất lượng cuộc sống và Sức mua thực tế có mối liên hệ với nhau.
mtht1 <- table(dt$Quality.of.Life.Category, dt$Purchasing.Power.Category)
chisq.test(mtht1)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: mtht1
## X-squared = 70.307, df = 1, p-value < 2.2e-16
Nhận xét:
Dựa trên kết quả kiểm định Chi bình phương, ta thấy p_value < 2.2e-16 bé hơn với mức ý nghĩa thông thường (α = 0.05), do đó ta bác bỏ giả thuyết \(H_0\). Điều này cho thấy có mối liên hệ thống kê có ý nghĩa giữa chất lượng cuộc sống và sức mua thực tế.
Giả thuyết kiểm định
\(H_0\): Chất lượng cuộc sống và Mức độ an toàn là hai biến độc lập.
\(H_1\): Chất lượng cuộc sống và Mức độ an toàn có mối liên hệ với nhau.
mtht2 <- table(dt$Quality.of.Life.Category, dt$Safety.Category)
chisq.test(mtht2)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: mtht2
## X-squared = 16.816, df = 1, p-value = 4.118e-05
Nhận xét:
Dựa trên kết quả kiểm định Chi bình phương, ta thấy p_value = 4.118e-05 bé hơn với mức ý nghĩa thông thường (α = 0.05), do đó ta bác bỏ giả thuyết \(H_0\). Điều này cho thấy có mối liên hệ thống kê có ý nghĩa giữa chất lượng cuộc sống và Mức độ an toàn.
Giả thuyết kiểm định
\(H_0\): Chất lượng cuộc sống và Chất lượng y tế là hai biến độc lập.
\(H_1\): Chất lượng cuộc sống và Chất lượng y tế có mối liên hệ với nhau.
mtht3 <- table(dt$Quality.of.Life.Category, dt$Health.Care.Category)
chisq.test(mtht3)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: mtht3
## X-squared = 19.426, df = 1, p-value = 1.046e-05
Nhận xét:
Dựa trên kết quả kiểm định Chi bình phương, ta thấy p_value = 1.046e-05 bé hơn với mức ý nghĩa thông thường (α = 0.05), do đó ta bác bỏ giả thuyết \(H_0\). Điều này cho thấy có mối liên hệ thống kê có ý nghĩa giữa chất lượng cuộc sống và Chất lượng y tế.
Giả thuyết kiểm định
\(H_0\): Chất lượng cuộc sống và Điều kiện khí hậu là hai biến độc lập.
\(H_1\): Chất lượng cuộc sống và Điều kiện khí hậu có mối liên hệ với nhau.
mtht4 <- table(dt$Quality.of.Life.Category, dt$Climate.Category)
chisq.test(mtht4)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: mtht4
## X-squared = 103.21, df = 1, p-value < 2.2e-16
Nhận xét:
Dựa trên kết quả kiểm định Chi bình phương, ta thấy p_value < 2.2e-16 bé hơn với mức ý nghĩa thông thường (α = 0.05), do đó ta bác bỏ giả thuyết \(H_0\). Điều này cho thấy có mối liên hệ thống kê có ý nghĩa giữa chất lượng cuộc sống và Điều kiện khí hậu.
Giả thuyết kiểm định
\(H_0\): Chất lượng cuộc sống và Chi phí sinh hoạt là hai biến độc lập.
\(H_1\): Chất lượng cuộc sống và Chi phí sinh hoạt có mối liên hệ với nhau.
mtht5 <- table(dt$Quality.of.Life.Category, dt$Cost.of.Living.Category)
chisq.test(mtht5)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: mtht5
## X-squared = 2.1005, df = 1, p-value = 0.1472
Nhận xét:
Dựa trên kết quả kiểm định Chi bình phương, ta thấy p_value = 0.1472 lớn hơn với mức ý nghĩa thông thường (α = 0.05), do đó không đủ bằng chứng để bác bỏ giả thuyết \(H_0\). Không có mối liên hệ thống kê có ý nghĩa giữa chất lượng cuộc sống và chi phí sinh hoạt. Điều này hàm ý rằng trong tập dữ liệu này, mức chi phí sinh hoạt không cho thấy ảnh hưởng rõ rệt đến chất lượng cuộc sống được phân loại.
Giả thuyết kiểm định
\(H_0\): Chất lượng cuộc sống và Tỷ lệ giá bất động sản so với thu nhập là hai biến độc lập.
\(H_1\): Chất lượng cuộc sống và Tỷ lệ giá bất động sản so với thu nhập có mối liên hệ với nhau.
mtht6 <- table(dt$Quality.of.Life.Category, dt$Property.Price.to.Income.Category)
chisq.test(mtht6)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: mtht6
## X-squared = 2.605, df = 1, p-value = 0.1065
Nhận xét:
Dựa trên kết quả kiểm định Chi bình phương, ta thấy p_value = 0.1065 lớn hơn với mức ý nghĩa thông thường (α = 0.05), do đó không đủ bằng chứng để bác bỏ giả thuyết \(H_0\). Không có mối liên hệ thống kê có ý nghĩa giữa chất lượng cuộc sống và tỷ lệ giá bất động sản so với thu nhập. Điều này hàm ý rằng trong tập dữ liệu này, tỷ lệ giá bất động sản so với thu nhập không cho thấy ảnh hưởng rõ rệt đến chất lượng cuộc sống được phân loại.
Giả thuyết kiểm định
\(H_0\): Chất lượng cuộc sống và Thời gian di chuyển giao thông là hai biến độc lập.
\(H_1\): Chất lượng cuộc sống và Thời gian di chuyển giao thông có mối liên hệ với nhau.
mtht7 <- table(dt$Quality.of.Life.Category, dt$Traffic.Commute.Time.Category)
chisq.test(mtht7)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: mtht7
## X-squared = 0.036681, df = 1, p-value = 0.8481
Nhận xét:
Dựa trên kết quả kiểm định Chi bình phương, ta thấy p_value = 0.8481 lớn hơn với mức ý nghĩa thông thường (α = 0.05), do đó không đủ bằng chứng để bác bỏ giả thuyết \(H_0\). Không có mối liên hệ thống kê có ý nghĩa giữa chất lượng cuộc sống và thời gian di chuyển giao thông với thu nhập. Điều này hàm ý rằng trong tập dữ liệu này, thời gian di chuyển giao thông so với thu nhập không cho thấy ảnh hưởng rõ rệt đến chất lượng cuộc sống được phân loại.
Giả thuyết kiểm định
\(H_0\): Chất lượng cuộc sống và Mức độ ô nhiễm là hai biến độc lập.
\(H_1\): Chất lượng cuộc sống và Mức độ ô nhiễm có mối liên hệ với nhau.
mtht8 <- table(dt$Quality.of.Life.Category, dt$Pollution.Category)
chisq.test(mtht8)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: mtht8
## X-squared = 3.574, df = 1, p-value = 0.05869
Dựa trên kết quả kiểm định Chi bình phương, ta thấy p_value = 0.05869 lớn hơn với mức ý nghĩa thông thường (α = 0.05), do đó không đủ bằng chứng để bác bỏ giả thuyết \(H_0\). Không có mối liên hệ thống kê có ý nghĩa giữa chất lượng cuộc sống và mức độ ô nhiễm. Điều này hàm ý rằng trong tập dữ liệu này, mức độ ô nhiễm không cho thấy ảnh hưởng rõ rệt đến chất lượng cuộc sống được phân loại.
dt$Quality<- factor(dt$Quality.of.Life.Category,
levels = c("High", "Low"),
labels = c("Chất lượng cuộc sống cao", "Chất lượng cuộc sống thấp"))
dt$PurchasingPower <- factor(dt$Purchasing.Power.Category,
levels = c("High", "Low"),
labels = c("Sức mua thực tế cao", "Sức mua thực tế thấp"))
# Tạo bảng tần suất chéo
tkmt2b1<- table(dt$Quality, dt$PurchasingPower)
# Thêm tổng hàng và tổng cột
sumtkmt2b1<- addmargins(tkmt2b1)
sumtkmt2b1
##
## Sức mua thực tế cao Sức mua thực tế thấp Sum
## Chất lượng cuộc sống cao 52 17 69
## Chất lượng cuộc sống thấp 29 138 167
## Sum 81 155 236
# Chuyển bảng tần suất thành data frame để vẽ
df_plot2 <- as.data.frame(tkmt2b1)
colnames(df_plot2) <- c("Quality_of_Life", "Purchasing_Power", "Count")
# Vẽ biểu đồ
library(ggplot2)
ggplot(df_plot2, aes(x = Purchasing_Power, y = Count, fill = Quality_of_Life)) +
geom_bar(stat = "identity", position = position_dodge(width = 0.7), width = 0.6) +
geom_text(aes(label = Count),
position = position_dodge(width = 0.7),
vjust = -0.3, size = 3.5) +
scale_fill_manual(values = c("#41ab5d", "#238b45")) +
labs(
title = "Biểu đồ 3.2: Mối liên hệ giữa Sức mua thực tế và Chất lượng cuộc sống",
x = "Sức mua thực tế",
y = "Số quốc gia",
fill = "Chất lượng cuộc sống"
) +
theme_minimal()
Nhận xét
Dựa vào biểu đồ 3.2,nhận thấy xu hướng phân hóa rõ rệt giữa chất lượng cuộc sống và sức mua thực tế. Cụ thể, trong số 69 quốc gia có chất lượng cuộc sống cao, có đến 52 quốc gia (khoảng 75%) đồng thời sở hữu sức mua thực tế cao. Ngược lại, trong nhóm 167 quốc gia có chất lượng cuộc sống thấp, phần lớn (138 quốc gia, tương đương 82,6%) lại có sức mua thực tế thấp. Sự chênh lệch đáng kể này phản ánh xu hướng đồng biến giữa hai yếu tố: khi sức mua thực tế cao thì chất lượng cuộc sống cũng có xu hướng cao, và ngược lại. Đây là cơ sở ban đầu để giả định rằng sức mua thực tế có thể là một yếu tố ảnh hưởng đến chất lượng cuộc sống của người dân.
addmargins(tkmt2b1)
##
## Sức mua thực tế cao Sức mua thực tế thấp Sum
## Chất lượng cuộc sống cao 52 17 69
## Chất lượng cuộc sống thấp 29 138 167
## Sum 81 155 236
\[ p_1 = P(\text{Quality} = \text{Chất lượng cuộc sống cao} \mid \text{Purchasing} = Sức mua thực tế cao) \] \[ p_2 = P(\text{Quality} =\text{Chất lượng cuộc sống cao} \mid \text{Purchasing} = Sức mua thực tế thấp) \]
Giả thuyết kiểm định
\(H_0\): \(p_1 - p_2 = 0\) (Tỷ lệ quốc gia có chất lượng cuộc sống cao ở nhóm sức mua thực tế cao bằng với nhóm sức mua thực tế thấp)
\(H_1\): \(p_1 - p_2 > 0\) (Tỷ lệ quốc gia có chất lượng cuộc sống cao ở nhóm sức mua thực tế cao nhiều hơn nhóm sức mua thực tế thấp)
# Số quốc gia có chất lượng sống cao trong từng nhóm sức mua
counts_Purchasing <- c(tkmt2b1["Chất lượng cuộc sống cao", "Sức mua thực tế cao"],
tkmt2b1["Chất lượng cuộc sống cao", "Sức mua thực tế thấp"])
# Tổng số người trong từng sức mua
totals_Purchasing <- c(sum(tkmt2b1[, "Sức mua thực tế cao"]),
sum(tkmt2b1[, "Sức mua thực tế thấp"]))
# Kiểm định tỉ lệ một phía: p1 > p2
test_Purchasing_greater <- prop.test(counts_Purchasing, totals_Purchasing,
alternative = "greater", correct = FALSE)
# Hiển thị kết quả
test_Purchasing_greater
##
## 2-sample test for equality of proportions without continuity correction
##
## data: counts_Purchasing out of totals_Purchasing
## X-squared = 72.857, df = 1, p-value < 2.2e-16
## alternative hypothesis: greater
## 95 percent confidence interval:
## 0.4354391 1.0000000
## sample estimates:
## prop 1 prop 2
## 0.6419753 0.1096774
Nhận xét
Kết quả kiểm định cho thấy sự khác biệt về tỷ lệ quốc gia có chất lượng cuộc sống cao giữa hai nhóm sức mua là có ý nghĩa thống kê. Cụ thể, tỷ lệ quốc gia có chất lượng cuộc sống cao trong nhóm có sức mua thực tế cao lớn hơn đáng kể so với nhóm có sức mua thực tế thấp. Với mức ý nghĩa 5%, ta bác bỏ giả thuyết \(H_0\). Điều này cho thấy có bằng chứng thống kê để khẳng định rằng sức mua thực tế cao với khả năng đạt được chất lượng cuộc sống cao cao hơn sức mua thực tế thấp. Điều này củng cố giả định rằng sức mua thực tế là một yếu tố quan trọng ảnh hưởng đến chất lượng cuộc sống của người dân.
Purchasing <- table(dt$PurchasingPower,dt$Quality)
addmargins(Purchasing)
##
## Chất lượng cuộc sống cao Chất lượng cuộc sống thấp Sum
## Sức mua thực tế cao 52 29 81
## Sức mua thực tế thấp 17 138 155
## Sum 69 167 236
RelRisk(Purchasing, conf.level = .95)
## rel. risk lwr.ci upr.ci
## 5.853304 3.679230 9.455743
Nhận xét
Kết quả phân tích Relative Risk (RR) cho thấy tỷ lệ quốc gia có chất lượng cuộc sống cao trong nhóm có sức mua thực tế cao gấp khoảng 5.85 lần so với nhóm có sức mua thực tế thấp. ĐỘ tin cậy 95% cho RR nằm trong khoảng từ 3.68 đến 9.46, điều này cho thấy sự khác biệt là có ý nghĩa thống kê.
Nói cách khác, sức mua thực tế cao là một yếu tố quan trọng giúp gia tăng khả năng đạt được chất lượng cuộc sống cao ở các quốc gia. Kết quả này củng cố thêm bằng chứng về mối liên hệ cùng chiều giữa sức mua thực tế và chất lượng cuộc sống.
addmargins(Purchasing)
##
## Chất lượng cuộc sống cao Chất lượng cuộc sống thấp Sum
## Sức mua thực tế cao 52 29 81
## Sức mua thực tế thấp 17 138 155
## Sum 69 167 236
OddsRatio(Purchasing, conf.level = .95)
## odds ratio lwr.ci upr.ci
## 14.555781 7.386468 28.683635
Nhận xét
Trong số các quốc gia có sức mua thực tế cao, xác suất để một quốc gia có chất lượng cuộc sống cao cao gấp khoảng 14.56 lần so với xác suất tương ứng ở nhóm quốc gia có sức mua thấp.
Độ tin cậy 95% dao động từ 7.39 đến 28.68, tức là ngay cả trong trường hợp ít chênh lệch nhất, nhóm có sức mua cao vẫn có khả năng đạt chất lượng sống cao hơn ít nhất 7 lần so với nhóm còn lại.
Điều này cho thấy sức mua thực tế là một yếu tố ảnh hưởng mạnh đến chất lượng cuộc sống, và mối liên hệ này là có ý nghĩa thống kê.
dt$Quality<- factor(dt$Quality.of.Life.Category,
levels = c("High", "Low"),
labels = c("Chất lượng cuộc sống cao", "Chất lượng cuộc sống thấp"))
dt$Safety <- factor(dt$Safety.Category,
levels = c("High", "Low"),
labels = c("Mức độ an toàn cao", "Mức độ an toàn thấp"))
# Tạo bảng tần suất chéo
tkmt2b2<- table(dt$Quality, dt$Safety)
# Thêm tổng hàng và tổng cột
sumtkmt2b2<- addmargins(tkmt2b2)
sumtkmt2b2
##
## Mức độ an toàn cao Mức độ an toàn thấp Sum
## Chất lượng cuộc sống cao 67 2 69
## Chất lượng cuộc sống thấp 121 46 167
## Sum 188 48 236
# Chuyển bảng tần số thành data frame
df_plot2b2 <- as.data.frame(tkmt2b2)
colnames(df_plot2b2) <- c("Quality", "Safety", "Count")
# Vẽ biểu đồ
library(ggplot2)
ggplot(df_plot2b2, aes(x = Safety, y = Count, fill = Quality)) +
geom_bar(stat = "identity", position = position_dodge(width = 0.7), width = 0.6) +
geom_text(aes(label = Count),
position = position_dodge(width = 0.7),
vjust = -0.3, size = 3.5) +
scale_fill_manual(values = c("Chất lượng cuộc sống cao" = "#2E8B57",
"Chất lượng cuộc sống thấp" = "#E74C3C")) +
labs(
title = "Biểu đồ 3.3: Mối liên hệ giữa chất lượng cuộc sống và mức độ an toàn",
x = "Mức độ an toàn",
y = "Số quốc gia",
fill = "Chất lượng cuộc sống"
) +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5))
Nhận xét
Dựa theo biểu đồ 3.3, trong số 69 quốc gia có chất lượng cuộc sống cao, phần lớn (67 quốc gia, tương đương khoảng 97%) đồng thời có mức độ an toàn cao. Ngược lại, trong nhóm 167 quốc gia có chất lượng cuộc sống thấp, có 121 quốc gia (khoảng 72%) vẫn đạt mức độ an toàn cao, nhưng cũng có tới 46 quốc gia (gần 28%) rơi vào nhóm an toàn thấp. Sự phân bố này cho thấy mức độ an toàn có xu hướng đồng biến với chất lượng cuộc sống – các quốc gia có chất lượng sống cao gần như luôn gắn liền với mức độ an toàn cao. Tuy vậy, vẫn tồn tại một số quốc gia duy trì được mức độ an toàn dù chất lượng sống chưa cao, gợi ý rằng an toàn là một yếu tố quan trọng nhưng chưa đủ để đảm bảo chất lượng cuộc sống toàn diện.
addmargins(tkmt2b2)
##
## Mức độ an toàn cao Mức độ an toàn thấp Sum
## Chất lượng cuộc sống cao 67 2 69
## Chất lượng cuộc sống thấp 121 46 167
## Sum 188 48 236
\[ p_1 = P(\text{Quality} = \text{Chất lượng cuộc sống cao} \mid \text{Safety} = Mức độ an toàn cao) \]
\[ p_2 = P(\text{Quality} = \text{Chất lượng cuộc sống cao} \mid \text{Safety} = Mức độ an toàn thấp) \]
Giả thuyết kiểm định
\(H_0\): \(p_1 - p_2 = 0\) (Tỷ lệ quốc gia có chất lượng cuộc sống cao ở nhóm mức độ an toàn cao bằng với nhóm mức độ an toàn thấp)
\(H_1\): \(p_1 - p_2 > 0\) (Tỷ lệ quốc gia có chất lượng cuộc sống cao ở nhóm mức độ an toàn cao nhiều hơn nhóm mức độ an toàn thấp)
# Số quốc gia có chất lượng sống cao trong từng nhóm mức độ an toàn
counts_Safety <- c(tkmt2b2["Chất lượng cuộc sống cao", "Mức độ an toàn cao"],
tkmt2b2["Chất lượng cuộc sống cao", "Mức độ an toàn thấp"])
# Tổng số người trong từng nhóm mức độ an toàn
totals_Safety <- c(sum(tkmt2b2[, "Mức độ an toàn cao"]),
sum(tkmt2b2[, "Mức độ an toàn thấp"]))
# Kiểm định tỉ lệ một phía: p1 > p2
test_Safety_greater <- prop.test(counts_Safety, totals_Safety,
alternative = "greater", correct = FALSE)
# Hiển thị kết quả
test_Safety_greater
##
## 2-sample test for equality of proportions without continuity correction
##
## data: counts_Safety out of totals_Safety
## X-squared = 18.306, df = 1, p-value = 9.408e-06
## alternative hypothesis: greater
## 95 percent confidence interval:
## 0.2402068 1.0000000
## sample estimates:
## prop 1 prop 2
## 0.35638298 0.04166667
Nhận xét
Trong nhóm quốc gia có mức độ an toàn cao, khoảng 35.6% có chất lượng cuộc sống cao, trong khi ở nhóm an toàn thấp, tỷ lệ này chỉ là 4.2%. Kiểm định thống kê cho kết quả p-value = 9.408×10⁻⁶, nhỏ hơn 0.05, nên bác bỏ giả thuyết \(H_0\). Điều này cho thấy tỷ lệ quốc gia có chất lượng cuộc sống cao trong nhóm an toàn cao cao hơn đáng kể so với nhóm an toàn thấp. Nói cách khác, mức độ an toàn có mối liên hệ tích cực với chất lượng cuộc sống.
Safety <- table(dt$Safety,dt$Quality)
addmargins(Safety)
##
## Chất lượng cuộc sống cao Chất lượng cuộc sống thấp Sum
## Mức độ an toàn cao 67 121 188
## Mức độ an toàn thấp 2 46 48
## Sum 69 167 236
RelRisk(Safety, conf.level = .95)
## rel. risk lwr.ci upr.ci
## 8.553191 2.510927 31.322833
Nhận xét
Kết quả phân tích Relative Risk (RR) cho thấy tỷ lệ quốc gia có chất lượng cuộc sống cao trong nhóm có mức độ an toàn cao gấp khoảng 8.55 lần so với nhóm có mức độ an toàn thấp. Độ tin cậy 95% cho RR nằm trong khoảng từ 2.51 đến 31.32, chứng tỏ sự khác biệt này có ý nghĩa thống kê.
Điều này cho thấy rằng mức độ an toàn cao là một yếu tố quan trọng góp phần nâng cao chất lượng cuộc sống. Nói cách khác, các quốc gia càng an toàn thì càng có khả năng đạt được chất lượng sống cao.
addmargins(Safety)
##
## Chất lượng cuộc sống cao Chất lượng cuộc sống thấp Sum
## Mức độ an toàn cao 67 121 188
## Mức độ an toàn thấp 2 46 48
## Sum 69 167 236
OddsRatio(Safety, conf.level = .95)
## odds ratio lwr.ci upr.ci
## 12.735537 2.996858 54.121313
Nhận xét
Trong số các quốc gia có mức độ an toàn cao, khả năng để đạt chất lượng cuộc sống cao cao hơn khoảng 12.74 lần so với nhóm quốc gia có mức độ an toàn thấp.
Khoảng tin cậy 95% dao động từ khoảng 3.00 đến 54.12, nghĩa là ngay cả trong trường hợp thận trọng nhất, các quốc gia an toàn vẫn có khả năng đạt chất lượng sống cao hơn ít nhất 3 lần so với nhóm còn lại.
Điều này cho thấy rằng mức độ an toàn có mối liên hệ mạnh với chất lượng cuộc sống và kết quả này là có ý nghĩa thống kê.
dt$Quality<- factor(dt$Quality.of.Life.Category,
levels = c("High", "Low"),
labels = c("Chất lượng cuộc sống cao", "Chất lượng cuộc sống thấp"))
dt$HealthCare <- factor(dt$Health.Care.Category,
levels = c("High", "Low"),
labels = c("Chất lượng y tế cao", "Chất lượng y tế thấp"))
# Tạo bảng tần suất chéo
tkmt2b3<- table(dt$Quality, dt$HealthCare)
# Thêm tổng hàng và tổng cột
sumtkmt2b3<- addmargins(tkmt2b3)
sumtkmt2b3
##
## Chất lượng y tế cao Chất lượng y tế thấp Sum
## Chất lượng cuộc sống cao 69 0 69
## Chất lượng cuộc sống thấp 125 42 167
## Sum 194 42 236
# Chuyển bảng tần số thành data frame
df_plot_b3 <- as.data.frame(tkmt2b3)
colnames(df_plot_b3) <- c("Quality", "HealthCare", "Count")
# Vẽ biểu đồ
library(ggplot2)
ggplot(df_plot_b3, aes(x = HealthCare, y = Count, fill = Quality)) +
geom_bar(stat = "identity", position = position_dodge(width = 0.7), width = 0.6) +
geom_text(aes(label = Count),
position = position_dodge(width = 0.7),
vjust = -0.3, size = 3.5) +
scale_fill_manual(values = c("#9ECAE1", "#8856A7")) +
labs(
title = "Biểu đồ 3.4: Mối liên hệ giữa chất lượng cuộc sống và chất lượng y tế",
x = "Chất lượng y tế",
y = "Số quốc gia",
fill = "Chất lượng cuộc sống"
) +
theme_minimal()
Nhận xét
Dựa theo biểu đồ 3.4, tất cả 69 quốc gia có chất lượng cuộc sống cao đều có chất lượng y tế cao (chiếm 100%), trong khi ở nhóm quốc gia có chất lượng cuộc sống thấp, có đến 42 quốc gia (25,1%) thuộc nhóm chất lượng y tế thấp. Điều này cho thấy chất lượng y tế cao là đặc điểm phổ biến ở các quốc gia có chất lượng cuộc sống tốt, đồng thời gợi ý rằng chất lượng y tế có thể đóng vai trò quan trọng trong việc nâng cao chất lượng sống.
addmargins(tkmt2b3)
##
## Chất lượng y tế cao Chất lượng y tế thấp Sum
## Chất lượng cuộc sống cao 69 0 69
## Chất lượng cuộc sống thấp 125 42 167
## Sum 194 42 236
\[ p_1 = P(\text{Quality} = \text{Chất lượng cuộc sống thấp} \mid \text{HealthCare} = Chất lượng y tế cao) \]
\[ p_2 = P(\text{Quality} = \text{Chất lượng cuộc sống thấp} \mid \text{HealthCare} = Chất lượng y tế thấp) \]
Giả thuyết kiểm định
\(H_0\): \(p_1 - p_2 = 0\) (Tỷ lệ quốc gia có chất lượng cuộc sống thấp ở nhóm chất lượng y tế cao bằng với nhóm chất lượng y tế thấp)
\(H_1\): \(p_1 - p_2 < 0\) (Tỷ lệ quốc gia có chất lượng cuộc sống thấp ở nhóm chất lượng y tế cao nhiều hơn nhóm chất lượng y tế thấp)
# Số quốc gia có chất lượng sống cao trong từng nhóm chất lượng y tế
counts_HealthCare <- c(tkmt2b3["Chất lượng cuộc sống thấp", "Chất lượng y tế cao"],
tkmt2b3["Chất lượng cuộc sống thấp", "Chất lượng y tế thấp"])
# Tổng số người trong từng nhóm chất lượng y tế
totals_HealthCare <- c(sum(tkmt2b3[, "Chất lượng y tế cao"]),
sum(tkmt2b3[, "Chất lượng y tế thấp"]))
# Kiểm định tỉ lệ một phía: p1 < p2
test_HealthCare_less <- prop.test(counts_HealthCare, totals_HealthCare,
alternative = "less", correct = FALSE)
# Hiển thị kết quả
test_HealthCare_less
##
## 2-sample test for equality of proportions without continuity correction
##
## data: counts_HealthCare out of totals_HealthCare
## X-squared = 21.11, df = 1, p-value = 2.168e-06
## alternative hypothesis: less
## 95 percent confidence interval:
## -1.0000000 -0.2991368
## sample estimates:
## prop 1 prop 2
## 0.6443299 1.0000000
Nhận xét
Kết quả kiểm định tỷ lệ một phía cho ra giá trị p_value = 2.168e ^{-6}, nhỏ hơn mức ý nghĩa 0.05. Do đó, bác bỏ giả thuyết \(H_0\). Điều này cho thấy tỷ lệ quốc gia có chất lượng cuộc sống thấp trong nhóm có chất lượng y tế cao thấp hơn đáng kể so với nhóm có chất lượng y tế thấp. Nói cách khác, chất lượng y tế càng cao thì khả năng có chất lượng cuộc sống thấp càng giảm, hàm ý rằng chất lượng y tế có mối liên hệ cùng chiều với tỷ lệ quốc gia có chất lượng cuộc sống.
HealthCare <- table(dt$HealthCare,dt$Quality)
addmargins(HealthCare)
##
## Chất lượng cuộc sống cao Chất lượng cuộc sống thấp Sum
## Chất lượng y tế cao 69 125 194
## Chất lượng y tế thấp 0 42 42
## Sum 69 167 236
RelRisk(HealthCare, conf.level = .95)
## rel. risk lwr.ci upr.ci
## Inf 4.231786 Inf
Nhận xét
Trong mẫu quan sát, không có quốc gia nào thuộc nhóm chất lượng y tế thấp đạt được chất lượng cuộc sống cao, dẫn đến tỷ số rủi ro (RR) bằng vô cùng. Điều này phản ánh một mối liên hệ rất mạnh giữa chất lượng y tế và chất lượng cuộc sống. Tuy nhiên, do một ô trong bảng tần suất bằng 0, kết quả ước lượng RR trở nên không xác định đầy đủ.
Dù vậy, độ tin cậy 95% cho RR có cận dưới là 4.23, cho thấy rằng ngay cả trong trường hợp dù tỷ số rủi ro thực tế chỉ nằm ở mức thấp nhất , quốc gia có chất lượng y tế cao vẫn có khả năng đạt chất lượng cuộc sống cao gấp hơn 4 lần so với nhóm còn lại. Đây là bằng chứng có ý nghĩa thống kê và gợi ý vai trò then chốt của chất lượng y tế trong việc cải thiện chất lượng sống quốc gia.
addmargins(HealthCare)
##
## Chất lượng cuộc sống cao Chất lượng cuộc sống thấp Sum
## Chất lượng y tế cao 69 125 194
## Chất lượng y tế thấp 0 42 42
## Sum 69 167 236
OddsRatio(HealthCare, conf.level = .95)
## odds ratio lwr.ci upr.ci
## 47.071713 2.852649 776.732792
Nhận xét
Trong bảng phân phối giữa chất lượng y tế và chất lượng cuộc sống, không có quốc gia nào thuộc nhóm chất lượng y tế thấp đạt chất lượng cuộc sống cao. Điều này dẫn đến tỷ lệ khả năng đạt chất lượng sống cao ở nhóm y tế thấp là bằng 0, trong khi nhóm y tế cao vẫn có số lượng đáng kể các quốc gia đạt được mức sống cao.
Phân tích bằng tỷ số odds (Odds Ratio) cho thấy rằng các quốc gia có chất lượng y tế cao có khả năng đạt chất lượng sống cao gấp khoảng 47 lần so với nhóm có chất lượng y tế thấp (OR=47.07). Khoảng tin cậy 95% cho kết quả này dao động từ 2.85 đến 776.73, phản ánh sự khác biệt rõ rệt nhưng cũng thể hiện độ bất định cao do có ô dữ liệu bằng 0 trong bảng chéo.
dt$Quality<- factor(dt$Quality.of.Life.Category,
levels = c("High", "Low"),
labels = c("Chất lượng cuộc sống cao", "Chất lượng cuộc sống thấp"))
dt$Climate <- factor(dt$Climate.Category,
levels = c("High", "Low"),
labels = c("Điều kiện khí hậu thuận lợi", "Điều kiện khí hậu khắc nghiệt"))
# Tạo bảng tần suất chéo
tkmt2b4<- table(dt$Quality, dt$Climate)
# Thêm tổng hàng và tổng cột
sumtkmt2b4<- addmargins(tkmt2b4)
sumtkmt2b4
##
## Điều kiện khí hậu thuận lợi
## Chất lượng cuộc sống cao 69
## Chất lượng cuộc sống thấp 44
## Sum 113
##
## Điều kiện khí hậu khắc nghiệt Sum
## Chất lượng cuộc sống cao 0 69
## Chất lượng cuộc sống thấp 123 167
## Sum 123 236
# Chuyển bảng tần suất thành data frame
df_plot_b4 <- as.data.frame(tkmt2b4)
colnames(df_plot_b4) <- c("Quality", "Climate", "Count")
# Vẽ biểu đồ
library(ggplot2)
ggplot(df_plot_b4, aes(x = Climate, y = Count, fill = Quality)) +
geom_bar(stat = "identity", position = position_dodge(width = 0.7), width = 0.6) +
geom_text(aes(label = Count),
position = position_dodge(width = 0.7),
vjust = -0.3, size = 3.5) +
scale_fill_manual(values = c("#74C476", "#238B45")) + # xanh lá cây cho khí hậu
labs(
title = "Biểu đồ 3.5: Mối liên hệ giữa chất lượng cuộc sống và điều kiện khí hậu",
x = "Điều kiện khí hậu",
y = "Số lượng quốc gia",
fill = "Chất lượng cuộc sống"
) +
theme_minimal()
Nhận xét Dựa vào biểu đồ 3.5, trong số 69 quốc gia có chất lượng cuộc sống cao đều có điều kiện khí hậu thuận lợi (chiếm 100%). Ngược lại, trong nhóm 167 quốc gia có chất lượng cuộc sống thấp, tỷ lệ có điều kiện khí hậu khắc nghiệt cao hơn đáng kể (77 quốc gia, tương đương 46,1%). Kết quả này gợi ý rằng điều kiện khí hậu có thể là một yếu tố liên quan đến mức độ chất lượng cuộc sống của người dân ở các quốc gia.
addmargins(tkmt2b4)
##
## Điều kiện khí hậu thuận lợi
## Chất lượng cuộc sống cao 69
## Chất lượng cuộc sống thấp 44
## Sum 113
##
## Điều kiện khí hậu khắc nghiệt Sum
## Chất lượng cuộc sống cao 0 69
## Chất lượng cuộc sống thấp 123 167
## Sum 123 236
\[ p_1 = P(\text{Quality} = \text{Chất lượng cuộc sống thấp} \mid \text{Climate} = Điều kiện khí hậu thuận lợi) \]
\[ p_2 = P(\text{Quality} = \text{Chất lượng cuộc sống thấp} \mid \text{Climate} = Điều kiện khí hậu khắc nghiệt) \]
Giả thuyết kiểm định
\(H_0\): \(p_1 - p_2 = 0\) (Tỷ lệ quốc gia có chất lượng cuộc sống thấp ở nhóm điều kiện khí hậu thuận lợi bằng với nhóm điều kiện khí hậu khắc nghiệt)
\(H_1\): \(p_1 - p_2 < 0\) (Tỷ lệ quốc gia có chất lượng cuộc sống thấp ở nhóm điều kiện khí hậu thuận lợi ít hơn nhóm chất điều kiện khí hậu khắc nghiệt)
# Số quốc gia có chất lượng sống cao trong từng nhóm sức mua
counts_Climate <- c(tkmt2b4["Chất lượng cuộc sống thấp", "Điều kiện khí hậu thuận lợi"],
tkmt2b4["Chất lượng cuộc sống thấp", "Điều kiện khí hậu khắc nghiệt"])
# Tổng số người trong từng sức mua
totals_Climate <- c(sum(tkmt2b4[, "Điều kiện khí hậu thuận lợi"]),
sum(tkmt2b4[, "Điều kiện khí hậu khắc nghiệt"]))
# Kiểm định tỉ lệ một phía: p1 < p2
test_Climate_less <- prop.test(counts_Climate, totals_Climate,
alternative = "less", correct = FALSE)
# Hiển thị kết quả
test_Climate_less
##
## 2-sample test for equality of proportions without continuity correction
##
## data: counts_Climate out of totals_Climate
## X-squared = 106.14, df = 1, p-value < 2.2e-16
## alternative hypothesis: less
## 95 percent confidence interval:
## -1.0000000 -0.5351693
## sample estimates:
## prop 1 prop 2
## 0.3893805 1.0000000
Nhận xét
Kết quả kiểm định cho thấy tỷ lệ quốc gia có chất lượng cuộc sống thấp trong nhóm có điều kiện khí hậu thuận lợi là 38,9%, thấp hơn đáng kể so với 100% ở nhóm khí hậu khắc nghiệt. Với p-value < 2.2×10⁻¹⁶ và khoảng tin cậy hiệu số tỷ lệ nằm hoàn toàn phía âm [-1.000, −0.535], ta bác bỏ giả thuyết \(H_0\). Nói cách khác, điều kiện khí hậu thuận lợi có liên hệ cùng chiều với chất lượng cuộc sống: khí hậu càng thuận lợi thì khả năng có chất lượng cuộc sống thấp càng giảm.
Climate <- table(dt$Climate,dt$Quality)
addmargins(Climate)
##
## Chất lượng cuộc sống cao
## Điều kiện khí hậu thuận lợi 69
## Điều kiện khí hậu khắc nghiệt 0
## Sum 69
##
## Chất lượng cuộc sống thấp Sum
## Điều kiện khí hậu thuận lợi 44 113
## Điều kiện khí hậu khắc nghiệt 123 123
## Sum 167 236
RelRisk(Climate, conf.level = .95)
## rel. risk lwr.ci upr.ci
## Inf 20.1487 Inf
Nhận xét
Trong mẫu nghiên cứu, không có quốc gia nào thuộc nhóm có điều kiện khí hậu khắc nghiệt đạt được chất lượng cuộc sống cao. Kết quả này dẫn đến tỷ số rủi ro (RR) bằng vô cùng, phản ánh mối liên hệ cực kỳ mạnh giữa điều kiện khí hậu và chất lượng cuộc sống.
Mặc dù ước lượng RR là vô cùng do một ô bằng 0 trong bảng tần suất, độ tin cậy 95% với khoảng từ 20.15 đến ∞ cho thấy rằng ngay cả trong trường hợp bi quan nhất, quốc gia có điều kiện khí hậu thuận lợi vẫn có nguy cơ đạt chất lượng cuộc sống cao gấp ít nhất 20 lần so với nhóm khí hậu khắc nghiệt. Đây là kết quả có ý nghĩa thống kê cao, củng cố giả thuyết rằng điều kiện khí hậu là một yếu tố ảnh hưởng đến chất lượng sống.
addmargins(Climate)
##
## Chất lượng cuộc sống cao
## Điều kiện khí hậu thuận lợi 69
## Điều kiện khí hậu khắc nghiệt 0
## Sum 69
##
## Chất lượng cuộc sống thấp Sum
## Điều kiện khí hậu thuận lợi 44 113
## Điều kiện khí hậu khắc nghiệt 123 123
## Sum 167 236
OddsRatio(Climate, conf.level = .95)
## odds ratio lwr.ci upr.ci
## 385.76404 23.39303 6361.46418
Nhận xét
Phân tích bảng phân phối giữa điều kiện khí hậu và chất lượng cuộc sống cho thấy không có quốc gia nào có điều kiện khí hậu khắc nghiệt đạt chất lượng sống cao. Trong khi đó, tất cả các quốc gia có chất lượng sống cao đều thuộc nhóm có điều kiện khí hậu thuận lợi. Điều này dẫn đến tỷ số odds (Odds Ratio) cực kỳ lớn, lên tới 385.76, với khoảng tin cậy 95% từ 23.39 đến 6361.46.
Kết quả này ngụ ý rằng các quốc gia có điều kiện khí hậu thuận lợi có khả năng đạt chất lượng sống cao cao hơn khoảng 386 lần so với nhóm có khí hậu khắc nghiệt. Tuy nhiên, do tồn tại ô dữ liệu bằng 0 thường dẫn đến ước lượng không ổn định, khiến khoảng tin cậy trở nên rộng và độ chính xác bị ảnh hưởng.
Do đó, mặc dù kết quả này củng cố giả thuyết rằng khí hậu là yếu tố ảnh hưởng lớn đến chất lượng sống, ta cần kết hợp với các phương pháp thống kê bổ sung (như phân tích tỉ lệ hoặc RR) để khẳng định chắc chắn hơn mối liên hệ này.
\(H_0\): Biến không có ảnh hưởng đến chất lượng cuộc sống của các quốc gia
\(H_1\): Biến có ảnh hưởng đến chất lượng cuộc sống của các quốc gia
Trong quá trình kiểm tra mô hình hồi quy nhị phân với biến HealthCare và Chimate, nhận thấy dữ liệu xuất hiện hiện tượng phân tách hoàn hảo (perfect separation), dẫn đến hệ số ước lượng không ổn định, sai số chuẩn rất lớn và giá trị p không có ý nghĩa. Do đó, biến HealthCare và biến Climate không được đưa vào phân tích hồi quy để đảm bảo độ tin cậy của mô hình.
dt$hqQuality <- ifelse(dt$Quality == "Chất lượng cuộc sống cao", 1, 0)
# Mô hình hồi quy logistic với biến PurchasingPower
reglogitPurchasing <- glm(hqQuality ~ PurchasingPower, data = dt, family = binomial(link = 'logit'))
summary(reglogitPurchasing)
##
## Call:
## glm(formula = hqQuality ~ PurchasingPower, family = binomial(link = "logit"),
## data = dt)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.5839 0.2318 2.520 0.0117 *
## PurchasingPowerSức mua thực tế thấp -2.6780 0.3461 -7.738 1.01e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 285.21 on 235 degrees of freedom
## Residual deviance: 212.88 on 234 degrees of freedom
## AIC: 216.88
##
## Number of Fisher Scoring iterations: 4
Hàm hồi quy logistic được ước lượng như sau:
\[ \log\left(\frac{\hat{\pi}}{1 - \hat{\pi}}\right) = 0.5839 - 2.6780 \cdot \text{PurchasingPower}_{\text{thấp}} \]
confint(reglogitPurchasing)
## Waiting for profiling to be done...
## 2.5 % 97.5 %
## (Intercept) 0.1375164 1.050034
## PurchasingPowerSức mua thực tế thấp -3.3813817 -2.020061
Nhận xét
Kết quả mô hình hồi quy logistic với biến PurchasingPower (Sức mua thực tế) cho thấy rằng yếu tố này có ảnh hưởng tiêu cực và có ý nghĩa thống kê mạnh đến xác suất đạt chất lượng cuộc sống cao. Cụ thể, so với nhóm có sức mua thực tế cao, nhóm quốc gia có sức mua thấp có hệ số hồi quy là −2.678 (p < 0.001), tương ứng với Odds Ratio khoảng 0.069. Điều này có nghĩa là các quốc gia có sức mua thấp chỉ có khoảng 6.9% khả năng đạt chất lượng cuộc sống cao so với nhóm có sức mua cao, nếu các yếu tố khác giữ nguyên. Độ tin cậy 95% cho hệ số nằm trong khoảng từ −3.38 đến −2.02, khẳng định tác động âm của mối quan hệ này. Tổng thể, mô hình có mức độ phù hợp tốt (AIC = 216.88), cho thấy sức mua là một yếu tố dự báo đáng tin cậy cho chất lượng sống.
# Mô hình hồi quy logistic với biến Safety
reglogitSafety <- glm(hqQuality ~ Safety, data = dt, family = binomial(link = 'logit'))
summary(reglogitSafety)
##
## Call:
## glm(formula = hqQuality ~ Safety, family = binomial(link = "logit"),
## data = dt)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.5911 0.1523 -3.882 0.000104 ***
## SafetyMức độ an toàn thấp -2.5444 0.7381 -3.447 0.000566 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 285.21 on 235 degrees of freedom
## Residual deviance: 261.52 on 234 degrees of freedom
## AIC: 265.52
##
## Number of Fisher Scoring iterations: 5
confint(reglogitSafety)
## Waiting for profiling to be done...
## 2.5 % 97.5 %
## (Intercept) -0.8944175 -0.2963393
## SafetyMức độ an toàn thấp -4.3758942 -1.3276447
\[ \log\left(\frac{\pi}{1 - \pi}\right) = -0.5911 - 2.5444 \cdot \text{Safety}_{\text{thấp}} \]
Nhận xét
Mô hình hồi quy logistic kiểm định mối liên hệ giữa mức độ an toàn (Safety) và xác suất đạt chất lượng cuộc sống cao cho thấy rằng, so với nhóm có mức độ an toàn cao, các quốc gia có mức độ an toàn thấp có hệ số hồi quy là −2.5444 (p < 0.001) tương đương với Odds Ratio là 0.078, cho thấy tác động âm rõ rệt và có ý nghĩa thống kê. Độ tin cậy 95% cho hệ số này nằm trong khoảng [−4.376,−1.328], điều này có thể diễn giải rằng, trong điều kiện giữ nguyên các yếu tố khác, mức độ an toàn thấp làm giảm đáng kể xác suất một quốc gia đạt chất lượng sống cao, cho thấy an toàn xã hội là một yếu tố ảnh hưởng mạnh đến chất lượng cuộc sống.
# Mô hình Probit với biến Purchasing
probitPurchasing <- glm(hqQuality ~ PurchasingPower, data = dt, family = binomial(link = "probit"))
summary(probitPurchasing)
##
## Call:
## glm(formula = hqQuality ~ PurchasingPower, family = binomial(link = "probit"),
## data = dt)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.3637 0.1427 2.550 0.0108 *
## PurchasingPowerSức mua thực tế thấp -1.5920 0.1956 -8.141 3.93e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 285.21 on 235 degrees of freedom
## Residual deviance: 212.88 on 234 degrees of freedom
## AIC: 216.88
##
## Number of Fisher Scoring iterations: 4
\[ \Phi^{-1}(\pi) = 0.3637 - 1.5920 \cdot \text{PurchasingPower}_{\text{ thấp}} \]
confint(probitPurchasing)
## Waiting for profiling to be done...
## 2.5 % 97.5 %
## (Intercept) 0.08614526 0.6457496
## PurchasingPowerSức mua thực tế thấp -1.98041587 -1.2132718
Nhận xét
Kết quả mô hình cho thấy, việc một quốc gia có sức mua thực tế thấp làm giảm đáng kể xác suất có chất lượng sống cao. Hệ số âm rõ rệt và có ý nghĩa thống kê cao (p_value < 0.005). Khoảng tin cậy [-1.98; -1.21] cho kết luận rằng yếu tố sức mua thực tế thấp là một yếu tố tiêu cực quan trọng ảnh hưởng đến chất lượng sống.
# Mô hình xác suất tuyến tính với biến Safety
probitSafety <- glm(hqQuality ~ Safety, data = dt, family = binomial(link = "probit"))
summary(probitSafety)
##
## Call:
## glm(formula = hqQuality ~ Safety, family = binomial(link = "probit"),
## data = dt)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.36814 0.09369 -3.929 8.52e-05 ***
## SafetyMức độ an toàn thấp -1.36352 0.33707 -4.045 5.23e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 285.21 on 235 degrees of freedom
## Residual deviance: 261.52 on 234 degrees of freedom
## AIC: 265.52
##
## Number of Fisher Scoring iterations: 5
\[ \Phi^{-1}(\pi) = -0.3681 - 1.3635 \cdot \text{Safety}_{\text{Thấp}} \]
confint(probitSafety)
## Waiting for profiling to be done...
## 2.5 % 97.5 %
## (Intercept) -0.5527999 -0.1854115
## SafetyMức độ an toàn thấp -2.1067161 -0.7598356
Mô hình Probit với biến Safety cho thấy hệ số của biến “Mức độ an toàn thấp” là −1.3635, với độ tin cậy 95% là [−2.11;−0.76] và giá trị p_value (p < 0.05), cho thấy mối liên hệ này có ý nghĩa thống kê cao. Như vậy, khi một quốc gia có mức độ an toàn thấp, xác suất đạt chất lượng sống cao sẽ giảm đáng kể so với quốc gia có mức độ an toàn cao (giữ các yếu tố khác không đổi). Kết quả này phù hợp với giả thuyết rằng môi trường sống an toàn là yếu tố thiết yếu góp phần nâng cao chất lượng sống.
# Mô hình Cloglog với biến Purchasing
cloglog_Purchasing <- glm(hqQuality ~ PurchasingPower, data = dt, family = binomial(link = "cloglog"))
summary(cloglog_Purchasing)
##
## Call:
## glm(formula = hqQuality ~ PurchasingPower, family = binomial(link = "cloglog"),
## data = dt)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.02679 0.14485 0.185 0.853
## PurchasingPowerSức mua thực tế thấp -2.17948 0.28261 -7.712 1.24e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 285.21 on 235 degrees of freedom
## Residual deviance: 212.88 on 234 degrees of freedom
## AIC: 216.88
##
## Number of Fisher Scoring iterations: 5
\[ \log(-\log(1 - \pi)) = 0.0268 - 2.1795 \cdot \text{PurchasingPower}_{\text{Thấp}} \]
Nhận xét
Trong mô hình hồi quy Cloglog với biến Sức mua thực tế (PurchasingPower), hệ số ước lượng cho nhóm “Sức mua thực tế thấp” là −2.1795 với giá trị p_value<0.05, cho thấy biến này có ảnh hưởng có ý nghĩa thống kê đến xác suất đánh giá chất lượng cuộc sống cao. Hệ số âm cho thấy rằng các quốc gia có sức mua thực tế thấp có xác suất đạt chất lượng cuộc sống cao thấp hơn so với nhóm có sức mua thực tế cao.
# Mô hình Cloglog với biến beverage_coffee
cloglog_Safety <- glm(hqQuality ~ Safety, data = dt, family = binomial(link = "cloglog"))
summary(cloglog_Safety)
##
## Call:
## glm(formula = hqQuality ~ Safety, family = binomial(link = "cloglog"),
## data = dt)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.8195 0.1232 -6.654 2.85e-11 ***
## SafetyMức độ an toàn thấp -2.3373 0.7178 -3.256 0.00113 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 285.21 on 235 degrees of freedom
## Residual deviance: 261.52 on 234 degrees of freedom
## AIC: 265.52
##
## Number of Fisher Scoring iterations: 6
\[ \log(-\log(1 - \pi)) = -0.8195 - 2.3373 \cdot \text{Safety}_{\text{Thấp}} \]
Nhận xét
Trong mô hình hồi quy Cloglog với biến mức độ an toàn (Safety), hệ số ước lượng cho nhóm “Mức độ an toàn thấp” là −2.3373 với giá trị p_value = 0.00113 < 0.05, cho thấy ảnh hưởng này có ý nghĩa thống kê ở mức 5%. Dấu âm của hệ số chỉ ra rằng các quốc gia có mức độ an toàn thấp có xác suất đạt chất lượng cuộc sống cao thấp hơn so với nhóm có mức độ an toàn cao. Điều này cho thấy yếu tố an toàn có vai trò quan trọng trong việc đánh giá chất lượng cuộc sống.
mhhq_logit <- glm(hqQuality ~ PurchasingPower + Safety, data = dt, family = binomial(link = "logit"))
summary(mhhq_logit)
##
## Call:
## glm(formula = hqQuality ~ PurchasingPower + Safety, family = binomial(link = "logit"),
## data = dt)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.7776 0.2472 3.146 0.00165 **
## PurchasingPowerSức mua thực tế thấp -2.5686 0.3565 -7.204 5.83e-13 ***
## SafetyMức độ an toàn thấp -2.2582 0.7787 -2.900 0.00373 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 285.21 on 235 degrees of freedom
## Residual deviance: 199.56 on 233 degrees of freedom
## AIC: 205.56
##
## Number of Fisher Scoring iterations: 6
Phương trình hồi quy logit có dạng:
\[ \log\left(\frac{\pi}{1 - \pi}\right) = 0.7776 - 2.5686 \cdot \text{PurchasingPower}_{\text{Thấp}} - 2.2582 \cdot \text{Safety}_{\text{Thấp}} \]
Nhận xét
Mô hình hồi quy logistic bội được sử dụng để đánh giá tác động đồng thời của sức mua thực tế và mức độ an toàn đến xác suất sản phẩm đạt chất lượng cao. Kết quả cho thấy cả hai biến độc lập đều có ảnh hưởng tiêu cực và có ý nghĩa thống kê đến chất lượng sản phẩm. Cụ thể, khi sức mua thực tế thấp, odds để quốc gia đạt chất lượng cuộc sống cao chỉ bằng 7.68% so với sức mua thực tế cao (p < 0.001), và khi mức độ an toàn thấp, odds để quốc gia đạt chất lượng cuộc sống cao chỉ bằng 10.47% so với mức an toàn cao (p = 0.00373).
mhhq_probit <- glm(hqQuality ~ PurchasingPower + Safety, data = dt, family = binomial(link = "probit"))
summary(mhhq_probit)
##
## Call:
## glm(formula = hqQuality ~ PurchasingPower + Safety, family = binomial(link = "probit"),
## data = dt)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.4661 0.1486 3.137 0.00171 **
## PurchasingPowerSức mua thực tế thấp -1.5198 0.2014 -7.545 4.52e-14 ***
## SafetyMức độ an toàn thấp -1.1645 0.3833 -3.039 0.00238 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 285.21 on 235 degrees of freedom
## Residual deviance: 200.14 on 233 degrees of freedom
## AIC: 206.14
##
## Number of Fisher Scoring iterations: 5
Phương trình hồi quy logit có dạng:
\[ \Phi^{-1}(\pi) = 0.4661 - 1.5198 \cdot \text{PurchasingPower}_{\text{Thấp}} - 1.1645 \cdot \text{Safety}_{\text{Thấp}} \]
Nhận xét
Mô hình hồi quy probit được điều chỉnh chỉ còn lại hai biến độc lập là “Sức mua thực tế” và “Mức độ an toàn” cho thấy cả hai đều có ảnh hưởng tiêu cực và có ý nghĩa thống kê rõ ràng đến xác suất người dân có chất lượng cuộc sống cao. Điều này phù hợp với lý thuyết và thực tiễn: khi người dân có sức mua thấp hoặc sống trong môi trường thiếu an toàn, khả năng đạt được chất lượng sống cao sẽ giảm đáng kể. Việc loại bỏ các biến không có ý nghĩa như “Chất lượng y tế” và “Khí hậu” đã giúp cải thiện đáng kể độ phù hợp của mô hình và tránh hiện tượng phân tách hoàn hảo.
Khi một quốc gia thuộc nhóm có sức mua thực tế thấp, xác suất đạt chất lượng sống cao sẽ giảm 1.5198 đơn vị so với nhóm có sức mua cao. Nếu giữ các yếu tố khác không đổi, xác suất đạt chất lượng sống cao của quốc gia này giảm từ khoảng 67.9% (khi sức mua cao) xuống còn 14.7% (khi sức mua thấp). Điều này cho thấy sức mua là yếu tố có tác động rất mạnh đến chất lượng sống.
Khi một quốc gia nằm trong nhóm có mức độ an toàn thấp, xác suất quốc gia đạt chấ lượng sống cao thấp hơn 1.1645 đơn vị so với nhóm an toàn cao. Trong điều kiện các yếu tố khác không đổi, xác suất đạt chất lượng sống cao giảm từ khoảng 67.9% (khi an toàn cao) xuống còn 24.3% (khi an toàn thấp). Điều này nhấn mạnh vai trò thiết yếu của môi trường sống an toàn đối với chất lượng cuộc sống.
mhhq_cloglog <- glm(hqQuality ~ PurchasingPower + Safety, data = dt, family = binomial(link = "cloglog"))
summary(mhhq_cloglog)
##
## Call:
## glm(formula = hqQuality ~ PurchasingPower + Safety, family = binomial(link = "cloglog"),
## data = dt)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 0.1535 0.1474 1.042 0.29760
## PurchasingPowerSức mua thực tế thấp -2.0361 0.2843 -7.161 8.03e-13 ***
## SafetyMức độ an toàn thấp -1.9261 0.7222 -2.667 0.00766 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 285.21 on 235 degrees of freedom
## Residual deviance: 199.37 on 233 degrees of freedom
## AIC: 205.37
##
## Number of Fisher Scoring iterations: 6
Hàm hồi quy Cloglog của mô hình này được biểu diễn như sau:
\[ \log(-\log(1 - \pi)) = 0.1535 - 2.0361 \cdot \text{PurchasingPower}_{\text{Thấp}} - 1.9261 \cdot \text{Safety}_{\text{Thấp}} \]
Nhận xét
Kết quả từ mô hình hồi quy Cloglog với hai biến độc lập là PurchasingPower và Safety cho thấy cả hai biến đều có ảnh hưởng tiêu cực và có ý nghĩa thống kê đến xác suất quốc gia đánh giá chất lượng cuộc sống cao (hqQuality=1). Cụ thể, khi sức mua thực tế thấp, hệ số ước lượng là −2.0361 (p_value < 0.05), cho thấy rằng khả năng quốc gia đạt chất lượng cuộc sống cao thấp hơn sức mua thực tế cao. Tương tự, khi mức độ an toàn thấp, hệ số là −1.9261 (p_value = 0.00766), quốc gia đạt chất lượng cuộc sống cao thấp hơn so với mức độ an toàn cao. Hệ số chặn (intercept) không có ý nghĩa thống kê (p = 0.29760), tuy nhiên mô hình vẫn thể hiện rõ vai trò của hai biến độc lập trong việc giải thích biến phụ thuộc.
Chỉ số AIC
AIC(mhhq_logit)
## [1] 205.5581
AIC(mhhq_probit)
## [1] 206.1408
AIC(mhhq_cloglog)
## [1] 205.3654
Chỉ số BIC
BIC(mhhq_logit)
## [1] 215.9496
BIC(mhhq_probit)
## [1] 216.5323
BIC(mhhq_cloglog)
## [1] 215.7569
Chỉ số Log-Likelihood
logLik(mhhq_logit)
## 'log Lik.' -99.77907 (df=3)
logLik(mhhq_probit)
## 'log Lik.' -100.0704 (df=3)
logLik(mhhq_cloglog)
## 'log Lik.' -99.68271 (df=3)
Chỉ số McFadden_R2
pR2(mhhq_logit)["McFadden"]
## fitting null model for pseudo-r2
## McFadden
## 0.3003164
pR2(mhhq_probit)["McFadden"]
## fitting null model for pseudo-r2
## McFadden
## 0.2982735
pR2(mhhq_cloglog)["McFadden"]
## fitting null model for pseudo-r2
## McFadden
## 0.3009921
So sánh các mô hình
| Mô hình | AIC | BIC | Log-Likelihood | McFadden R² |
|---|---|---|---|---|
| Logit | 205.5581 | 215.9496 | -99.7791 | 0.3003 |
| Probit | 206.1408 | 216.5323 | -100.0704 | 0.2983 |
| Cloglog | 205.3654 | 215.7569 | -99.6827 | 0.3010 |
Dựa trên kết quả so sánh giữa ba mô hình hồi quy bội gồm Logit, Probit và Cloglog thông qua các tiêu chí đánh giá như AIC, BIC, Log-likelihood và hệ số xác định McFadden R², mô hình Cloglog cho thấy hiệu quả vượt trội hơn cả. Cụ thể, mô hình này có giá trị AIC (205.37) và BIC (215.76) thấp nhất, đồng thời đạt Log-likelihood cao nhất (-99.68) và hệ số McFadden R² lớn nhất (0.3010). Những yếu tố này cho thấy mô hình Cloglog không chỉ phù hợp với dữ liệu mà còn có khả năng giải thích biến phụ thuộc tốt hơn so với hai mô hình còn lại. Do đó, mô hình Cloglog được lựa chọn là mô hình phù hợp nhất trong phân tích hồi quy bội cho biến hqQuality.
Mặc dù mô hình Cloglog có giá trị AIC, BIC và McFadden R² tốt nhất về mặt số học, nhưng sự chênh lệch này là không đáng kể so với mô hình Logit. Do đó, khi xét đến tính dễ hiểu, phổ biến trong thực hành và diễn giải trực quan hơn thông qua odds, mô hình Logit được lựa chọn làm mô hình đại diện trong phân tích cuối cùng.
Đề tài “Phân tích các yếu tố ảnh hưởng đến chất lượng cuộc sống tại các quốc gia trên thế giới” đã hoàn thành mục tiêu đề ra là nhận diện và lượng hóa tác động của các yếu tố kinh tế – xã hội đến khả năng một quốc gia được xếp vào nhóm có chất lượng cuộc sống cao. Bằng cách khai thác bộ dữ liệu từ nền tảng Kaggle và áp dụng các phương pháp thống kê suy diễn cùng ba mô hình hồi quy nhị phân: Logit, Probit và Cloglog, nghiên cứu đã rút ra các kết luận chính sau:
Sức mua thực tế (Purchasing Power) và Mức độ an toàn (Safety) là hai yếu tố có ảnh hưởng tiêu cực, rõ rệt và có ý nghĩa thống kê mạnh mẽ đến xác suất một quốc gia có chất lượng sống cao. Cả ba mô hình hồi quy đều cho thấy hệ số ước lượng của hai biến này đều âm, và có giá trị p_value <0.05. Điều này hàm ý rằng quốc gia có sức mua thấp hoặc mức độ an toàn thấp sẽ giảm đáng kể khả năng đạt chất lượng sống cao.
Y tế (Health Care) và Khí hậu (Climate) mặc dù không đưa được vào mô hình hồi quy do hiện tượng phân tách hoàn hảo (tất cả quốc gia chất lượng sống cao đều có y tế tốt và khí hậu thuận lợi), nhưng các kiểm định ban đầu (Chi bình phương, Relative Risk, Odds Ratio) đều cho thấy chúng là điều kiện gần như bắt buộc để có chất lượng sống cao. Điều này phản ánh vai trò quyết định của hai yếu tố này trong thực tế.
Các biến như Chi phí sinh hoạt (Cost of Living), Tỷ lệ giá nhà trên thu nhập (Price to Income Ratio), Thời gian di chuyển (Commute Time) và Ô nhiễm (Pollution) không có mối liên hệ có ý nghĩa thống kê với chất lượng cuộc sống trong mô hình hiện tại. Điều này có thể do: Cách phân loại dữ liệu (nhị phân cao/thấp) làm mất thông tin chi tiết và ảnh hưởng của các yếu tố này đã được gián tiếp thể hiện thông qua biến khác như sức mua.
Về so sánh mô hình: Mô hình Cloglog cho thấy độ phù hợp tốt nhất với dữ liệu, với các chỉ số AIC (205.37) và BIC (215.76) thấp nhất, cùng hệ số McFadden R² cao nhất (0.3010). Tuy nhiên, sự khác biệt giữa ba mô hình (Logit, Probit, Cloglog) là không lớn, và các hệ số ước lượng đều nhất quán về dấu và ý nghĩa thống kê. Điều này cho thấy kết quả phân tích có tính ổn định cao. Vì lý do đó, và nhằm thuận tiện cho việc diễn giải kết quả theo xác suất và odds ratio – vốn dễ hiểu và phổ biến trong thực tiễn – mô hình Logit được lựa chọn làm mô hình trình bày chính trong nghiên cứu này.
Tổng kết lại, nghiên cứu đã chứng minh tính hữu ích của các phương pháp phân tích định lượng trong việc khám phá và đánh giá tác động của các yếu tố xã hội – kinh tế đến chất lượng sống. Đồng thời, kết quả cũng khẳng định rằng để nâng cao chất lượng cuộc sống, sức mua thực tế, an toàn xã hội, hệ thống y tế và môi trường sống là những yếu tố cốt lõi.
Dựa trên kết quả nghiên cứu, đề tài đề xuất một số kiến nghị chính sách như sau:
Ưu tiên các chính sách nâng cao sức mua thực tế: Chính phủ các nước nên tập trung vào việc cải thiện thu nhập thực tế của người dân, thông qua các chính sách kiểm soát lạm phát, tạo việc làm chất lượng cao, điều chỉnh mức lương tối thiểu hợp lý và mở rộng hệ thống an sinh xã hội.
Tăng cường toàn diện mức độ an toàn xã hội: Đảm bảo an toàn là điều kiện nền tảng cho chất lượng sống. Các quốc gia cần đầu tư cho hệ thống luật pháp, tăng cường lực lượng thực thi, và triển khai các chương trình phòng chống tội phạm hiệu quả.
Xem y tế và môi trường là trụ cột chiến lược: Dù không thể đưa trực tiếp vào mô hình định lượng, phân tích cho thấy y tế và khí hậu đóng vai trò thiết yếu. Vì vậy, việc nâng cao chất lượng hệ thống y tế công, cải thiện khả năng tiếp cận dịch vụ chăm sóc sức khỏe và thực hiện các chính sách môi trường bền vững là cần thiết cho một tương lai chất lượng sống cao.