getwd()
## [1] "C:/Users/Admin/OneDrive/Documents"
list.files()
## [1] "bài tập 2.1.docx"
## [2] "Báo cáo mô phỏng sinh trưởng cây cà chua bằng DSSAT.docx"
## [3] "Custom Office Templates"
## [4] "desktop.ini"
## [5] "điểm danh đầu giờ.docx"
## [6] "League of Legends"
## [7] "phantichdulieu"
## [8] "Power BI Desktop"
## [9] "Zalo Received Files"
data <- read.csv(file.choose(), stringsAsFactors = FALSE)
data$khu_vuc <- as.factor(data$khu_vuc)
data$gioi_tinh <- as.factor(data$gioi_tinh)
data$hoc_van <- as.factor(data$hoc_van)
nrow(data)
## [1] 100
ncol(data)
## [1] 8
names(data)
## [1] "ho_id" "khu_vuc" "gioi_tinh" "tuoi" "hoc_van" "thu_nhap"
## [7] "chi_tieu" "tiet_kiem"
str(data)
## 'data.frame': 100 obs. of 8 variables:
## $ ho_id : int 1 2 3 4 5 6 7 8 9 10 ...
## $ khu_vuc : Factor w/ 2 levels "Nong_thon","Thanh_thi": 1 2 1 2 1 2 1 2 1 2 ...
## $ gioi_tinh: Factor w/ 2 levels "Nam","Nu": 2 1 2 1 2 1 2 1 2 1 ...
## $ tuoi : int 31 32 33 34 35 36 37 38 39 40 ...
## $ hoc_van : Factor w/ 3 levels "Dai_hoc","THCS",..: 2 2 3 1 2 3 2 1 3 2 ...
## $ thu_nhap : int 7150000 7300000 7450000 7600000 7750000 7900000 8050000 8200000 8350000 8500000 ...
## $ chi_tieu : int 5100000 5200000 5300000 5400000 5500000 5600000 5700000 5800000 5900000 6000000 ...
## $ tiet_kiem: int 2050000 2100000 2150000 2200000 2250000 2300000 2350000 2400000 2450000 2500000 ...
mean(data$thu_nhap)
## [1] 14575000
mean(data$chi_tieu)
## [1] 10050000
mean(data$tiet_kiem)
## [1] 4525000
table1(~ thu_nhap + chi_tieu + tiet_kiem | khu_vuc, data = data)
| Nong_thon (N=50) |
Thanh_thi (N=50) |
Overall (N=100) |
|
|---|---|---|---|
| thu_nhap | |||
| Mean (SD) | 14500000 (4370000) | 14700000 (4370000) | 14600000 (4350000) |
| Median [Min, Max] | 14500000 [7150000, 21900000] | 14700000 [7300000, 22000000] | 14600000 [7150000, 22000000] |
| chi_tieu | |||
| Mean (SD) | 10000000 (2920000) | 10100000 (2920000) | 10100000 (2900000) |
| Median [Min, Max] | 10000000 [5100000, 14900000] | 10100000 [5200000, 15000000] | 10100000 [5100000, 15000000] |
| tiet_kiem | |||
| Mean (SD) | 4500000 (1460000) | 4550000 (1460000) | 4530000 (1450000) |
| Median [Min, Max] | 4500000 [2050000, 6950000] | 4550000 [2100000, 7000000] | 4530000 [2050000, 7000000] |
aggregate(cbind(thu_nhap, chi_tieu, tiet_kiem) ~ khu_vuc, data = data, mean)
## khu_vuc thu_nhap chi_tieu tiet_kiem
## 1 Nong_thon 14500000 10000000 4500000
## 2 Thanh_thi 14650000 10100000 4550000
table1(~ thu_nhap + chi_tieu + tiet_kiem | hoc_van, data = data)
| Dai_hoc (N=25) |
THCS (N=50) |
THPT (N=25) |
Overall (N=100) |
|
|---|---|---|---|---|
| thu_nhap | ||||
| Mean (SD) | 14800000 (4420000) | 14500000 (4370000) | 14500000 (4410000) | 14600000 (4350000) |
| Median [Min, Max] | 14800000 [7600000, 22000000] | 14400000 [7150000, 21700000] | 14700000 [7450000, 21900000] | 14600000 [7150000, 22000000] |
| chi_tieu | ||||
| Mean (SD) | 10200000 (2940000) | 10000000 (2920000) | 10000000 (2940000) | 10100000 (2900000) |
| Median [Min, Max] | 10200000 [5400000, 15000000] | 9950000 [5100000, 14800000] | 10100000 [5300000, 14900000] | 10100000 [5100000, 15000000] |
| tiet_kiem | ||||
| Mean (SD) | 4600000 (1470000) | 4500000 (1460000) | 4500000 (1470000) | 4530000 (1450000) |
| Median [Min, Max] | 4600000 [2200000, 7000000] | 4480000 [2050000, 6900000] | 4550000 [2150000, 6950000] | 4530000 [2050000, 7000000] |
aggregate(cbind(thu_nhap, chi_tieu, tiet_kiem) ~ hoc_van, data = data, mean)
## hoc_van thu_nhap chi_tieu tiet_kiem
## 1 Dai_hoc 14800000 10200000 4600000
## 2 THCS 14497000 9998000 4499000
## 3 THPT 14506000 10004000 4502000
ggplot(data, aes(x = thu_nhap)) +
geom_histogram(binwidth = 1000000, fill = "skyblue", color = "black") +
labs(
title = "Phân bố thu nhập của hộ gia đình",
x = "Thu nhập",
y = "Tần số"
) +
theme_minimal()
ggplot(data, aes(x = khu_vuc, y = chi_tieu, fill = khu_vuc)) +
geom_boxplot() +
labs(
title = "Chi tiêu theo khu vực",
x = "Khu vực",
y = "Chi tiêu"
) +
theme_minimal()
ggplot(data, aes(x = thu_nhap, y = chi_tieu)) +
geom_point(color = "blue", size = 2) +
geom_smooth(method = "lm", se = FALSE, color = "red") +
labs(
title = "Mối quan hệ giữa thu nhập và chi tiêu",
x = "Thu nhập",
y = "Chi tiêu"
) +
theme_minimal()
# 4. Phân tích và đánh giá Dựa trên bộ dữ liệu khảo sát hộ gia đình, có
thể thấy thu nhập có ảnh hưởng rõ rệt đến mức chi tiêu của các hộ. Kết
quả thống kê và biểu đồ phân tán cho thấy khi thu nhập tăng thì chi tiêu
cũng tăng theo. Mối quan hệ này là quan hệ cùng chiều, phù hợp với thực
tế kinh tế vì hộ gia đình có mức thu nhập cao thường có khả năng chi
tiêu lớn hơn cho nhu cầu sinh hoạt, giáo dục, y tế và các dịch vụ khác.
Ngoài ra, phần tiết kiệm của hộ cũng tăng theo thu nhập, cho thấy khi
thu nhập được cải thiện thì không chỉ tiêu dùng tăng mà khả năng tích
lũy cũng tốt hơn.
Xét theo khu vực sinh sống, hộ gia đình ở khu vực thành thị có mức thu nhập trung bình cao hơn hộ ở nông thôn, tuy mức chênh lệch không quá lớn. Điều này phản ánh sự khác biệt về điều kiện việc làm, cơ hội kinh tế và mức độ phát triển giữa hai khu vực. Đồng thời, chi tiêu của hộ thành thị cũng cao hơn, có thể do chi phí sinh hoạt ở khu vực này lớn hơn.
Xét theo trình độ học vấn, nhóm có học vấn cao hơn, đặc biệt là đại học, có xu hướng đạt mức thu nhập và tiết kiệm cao hơn. Điều này cho thấy học vấn có vai trò tích cực trong việc nâng cao năng lực tạo thu nhập.
Nhìn chung, kết quả phân tích phù hợp với lý thuyết kinh tế tiêu dùng. Theo lý thuyết, thu nhập là yếu tố quan trọng quyết định chi tiêu của hộ gia đình. Khi thu nhập tăng, mức tiêu dùng và tích lũy cũng có xu hướng tăng theo. Vì vậy, bộ dữ liệu này phản ánh khá rõ quy luật kinh tế cơ bản trong hành vi tiêu dùng của hộ gia đình.