1. Đọc dữ liệu

getwd()
## [1] "C:/Users/Admin/OneDrive/Documents"
list.files()
## [1] "bài tập 2.1.docx"                                        
## [2] "Báo cáo mô phỏng sinh trưởng cây cà chua bằng DSSAT.docx"
## [3] "Custom Office Templates"                                 
## [4] "desktop.ini"                                             
## [5] "điểm danh đầu giờ.docx"                                  
## [6] "League of Legends"                                       
## [7] "phantichdulieu"                                          
## [8] "Power BI Desktop"                                        
## [9] "Zalo Received Files"
data <- read.csv(file.choose(), stringsAsFactors = FALSE)

data$khu_vuc <- as.factor(data$khu_vuc)
data$gioi_tinh <- as.factor(data$gioi_tinh)
data$hoc_van <- as.factor(data$hoc_van)

1.1 Số quan sát, số biến và tên biến

nrow(data)
## [1] 100
ncol(data)
## [1] 8
names(data)
## [1] "ho_id"     "khu_vuc"   "gioi_tinh" "tuoi"      "hoc_van"   "thu_nhap" 
## [7] "chi_tieu"  "tiet_kiem"
str(data)
## 'data.frame':    100 obs. of  8 variables:
##  $ ho_id    : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ khu_vuc  : Factor w/ 2 levels "Nong_thon","Thanh_thi": 1 2 1 2 1 2 1 2 1 2 ...
##  $ gioi_tinh: Factor w/ 2 levels "Nam","Nu": 2 1 2 1 2 1 2 1 2 1 ...
##  $ tuoi     : int  31 32 33 34 35 36 37 38 39 40 ...
##  $ hoc_van  : Factor w/ 3 levels "Dai_hoc","THCS",..: 2 2 3 1 2 3 2 1 3 2 ...
##  $ thu_nhap : int  7150000 7300000 7450000 7600000 7750000 7900000 8050000 8200000 8350000 8500000 ...
##  $ chi_tieu : int  5100000 5200000 5300000 5400000 5500000 5600000 5700000 5800000 5900000 6000000 ...
##  $ tiet_kiem: int  2050000 2100000 2150000 2200000 2250000 2300000 2350000 2400000 2450000 2500000 ...

1.2 Giá trị trung bình của thu nhập, chi tiêu, tiết kiệm

mean(data$thu_nhap)
## [1] 14575000
mean(data$chi_tieu)
## [1] 10050000
mean(data$tiet_kiem)
## [1] 4525000

2. Bảng mô tả dữ liệu

2.1 Theo khu vực

table1(~ thu_nhap + chi_tieu + tiet_kiem | khu_vuc, data = data)
Nong_thon
(N=50)
Thanh_thi
(N=50)
Overall
(N=100)
thu_nhap
Mean (SD) 14500000 (4370000) 14700000 (4370000) 14600000 (4350000)
Median [Min, Max] 14500000 [7150000, 21900000] 14700000 [7300000, 22000000] 14600000 [7150000, 22000000]
chi_tieu
Mean (SD) 10000000 (2920000) 10100000 (2920000) 10100000 (2900000)
Median [Min, Max] 10000000 [5100000, 14900000] 10100000 [5200000, 15000000] 10100000 [5100000, 15000000]
tiet_kiem
Mean (SD) 4500000 (1460000) 4550000 (1460000) 4530000 (1450000)
Median [Min, Max] 4500000 [2050000, 6950000] 4550000 [2100000, 7000000] 4530000 [2050000, 7000000]
aggregate(cbind(thu_nhap, chi_tieu, tiet_kiem) ~ khu_vuc, data = data, mean)
##     khu_vuc thu_nhap chi_tieu tiet_kiem
## 1 Nong_thon 14500000 10000000   4500000
## 2 Thanh_thi 14650000 10100000   4550000

2.2 Theo học vấn

table1(~ thu_nhap + chi_tieu + tiet_kiem | hoc_van, data = data)
Dai_hoc
(N=25)
THCS
(N=50)
THPT
(N=25)
Overall
(N=100)
thu_nhap
Mean (SD) 14800000 (4420000) 14500000 (4370000) 14500000 (4410000) 14600000 (4350000)
Median [Min, Max] 14800000 [7600000, 22000000] 14400000 [7150000, 21700000] 14700000 [7450000, 21900000] 14600000 [7150000, 22000000]
chi_tieu
Mean (SD) 10200000 (2940000) 10000000 (2920000) 10000000 (2940000) 10100000 (2900000)
Median [Min, Max] 10200000 [5400000, 15000000] 9950000 [5100000, 14800000] 10100000 [5300000, 14900000] 10100000 [5100000, 15000000]
tiet_kiem
Mean (SD) 4600000 (1470000) 4500000 (1460000) 4500000 (1470000) 4530000 (1450000)
Median [Min, Max] 4600000 [2200000, 7000000] 4480000 [2050000, 6900000] 4550000 [2150000, 6950000] 4530000 [2050000, 7000000]
aggregate(cbind(thu_nhap, chi_tieu, tiet_kiem) ~ hoc_van, data = data, mean)
##   hoc_van thu_nhap chi_tieu tiet_kiem
## 1 Dai_hoc 14800000 10200000   4600000
## 2    THCS 14497000  9998000   4499000
## 3    THPT 14506000 10004000   4502000

3. Trực quan hóa dữ liệu

3.1 Biểu đồ phân bố thu nhập

ggplot(data, aes(x = thu_nhap)) +
  geom_histogram(binwidth = 1000000, fill = "skyblue", color = "black") +
  labs(
    title = "Phân bố thu nhập của hộ gia đình",
    x = "Thu nhập",
    y = "Tần số"
  ) +
  theme_minimal()

3.2 Biểu đồ chi tiêu theo khu vực

ggplot(data, aes(x = khu_vuc, y = chi_tieu, fill = khu_vuc)) +
  geom_boxplot() +
  labs(
    title = "Chi tiêu theo khu vực",
    x = "Khu vực",
    y = "Chi tiêu"
  ) +
  theme_minimal()

3.3 Biểu đồ mối quan hệ giữa thu nhập và chi tiêu

ggplot(data, aes(x = thu_nhap, y = chi_tieu)) +
  geom_point(color = "blue", size = 2) +
  geom_smooth(method = "lm", se = FALSE, color = "red") +
  labs(
    title = "Mối quan hệ giữa thu nhập và chi tiêu",
    x = "Thu nhập",
    y = "Chi tiêu"
  ) +
  theme_minimal()

# 4. Phân tích và đánh giá Dựa trên bộ dữ liệu khảo sát hộ gia đình, có thể thấy thu nhập có ảnh hưởng rõ rệt đến mức chi tiêu của các hộ. Kết quả thống kê và biểu đồ phân tán cho thấy khi thu nhập tăng thì chi tiêu cũng tăng theo. Mối quan hệ này là quan hệ cùng chiều, phù hợp với thực tế kinh tế vì hộ gia đình có mức thu nhập cao thường có khả năng chi tiêu lớn hơn cho nhu cầu sinh hoạt, giáo dục, y tế và các dịch vụ khác. Ngoài ra, phần tiết kiệm của hộ cũng tăng theo thu nhập, cho thấy khi thu nhập được cải thiện thì không chỉ tiêu dùng tăng mà khả năng tích lũy cũng tốt hơn.

Xét theo khu vực sinh sống, hộ gia đình ở khu vực thành thị có mức thu nhập trung bình cao hơn hộ ở nông thôn, tuy mức chênh lệch không quá lớn. Điều này phản ánh sự khác biệt về điều kiện việc làm, cơ hội kinh tế và mức độ phát triển giữa hai khu vực. Đồng thời, chi tiêu của hộ thành thị cũng cao hơn, có thể do chi phí sinh hoạt ở khu vực này lớn hơn.

Xét theo trình độ học vấn, nhóm có học vấn cao hơn, đặc biệt là đại học, có xu hướng đạt mức thu nhập và tiết kiệm cao hơn. Điều này cho thấy học vấn có vai trò tích cực trong việc nâng cao năng lực tạo thu nhập.

Nhìn chung, kết quả phân tích phù hợp với lý thuyết kinh tế tiêu dùng. Theo lý thuyết, thu nhập là yếu tố quan trọng quyết định chi tiêu của hộ gia đình. Khi thu nhập tăng, mức tiêu dùng và tích lũy cũng có xu hướng tăng theo. Vì vậy, bộ dữ liệu này phản ánh khá rõ quy luật kinh tế cơ bản trong hành vi tiêu dùng của hộ gia đình.