Danh sách thành viên và mức độ đóng góp: Hà Kiều Anh - MSV 686569 : 100% Chu Phương Linh - MSV 686812 : 85% Phan Thị Thu Uyên - MSV 687115 : 85% Phan Thị Hồng Vân - MSV 687118 : 85% Phạm Văn Tuấn - MSV 687108: 85% — Hoạt động 1:

library(lessR)
## 
## lessR 4.5.2                          feedback: gerbing@pdx.edu 
## --------------------------------------------------------------
## > d <- Read("")  Read data file, many formats available, e.g., Excel
##   d is the default data frame, data= in analysis routines optional
## 
## Find examples of reading, writing, and manipulating data, graphics,
## testing means and proportions, regression, factor analysis,
## customization, forecasting, and aggregation to pivot tables.
##   Enter: browseVignettes("lessR")
## 
## Although most previous function calls still work, most
## visualization functions are now reorganized to three functions:
##    Chart(): type = "bar", "pie", "radar", "bubble", "dot",
##                    "sunburst", "treemap", "icicle"
##    X(): type="histogram", "density", "vbs", and more
##    XY(): type="scatter" for a scatterplot, or "contour", "smooth"
## There is also Flows() for Sankey flow diagrams.
## 
## View lessR updates, now including modern time series forecasting.
##   Enter: news(package="lessR"), or ?Chart, ?X, or ?XY
## 
## Interactive data analysis for constructing visualizations.
##   Enter: interact()
library(table1)
## 
## Attaching package: 'table1'
## The following object is masked from 'package:lessR':
## 
##     label
## The following objects are masked from 'package:base':
## 
##     units, units<-
library(ggplot2)
dulieu <- read.csv("khao_sat_ho_gia_dinh.csv")
dim(dulieu)
## [1] 100   8
names(dulieu)
## [1] "ho_id"     "khu_vuc"   "gioi_tinh" "tuoi"      "hoc_van"   "thu_nhap" 
## [7] "chi_tieu"  "tiet_kiem"
mean(dulieu$thu_nhap, na.rm = TRUE)
## [1] 14575000
mean(dulieu$chi_tieu, na.rm = TRUE)
## [1] 10050000
mean(dulieu$tiet_kiem, na.rm = TRUE)
## [1] 4525000
str(dulieu)
## 'data.frame':    100 obs. of  8 variables:
##  $ ho_id    : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ khu_vuc  : chr  "Nong_thon" "Thanh_thi" "Nong_thon" "Thanh_thi" ...
##  $ gioi_tinh: chr  "Nu" "Nam" "Nu" "Nam" ...
##  $ tuoi     : int  31 32 33 34 35 36 37 38 39 40 ...
##  $ hoc_van  : chr  "THCS" "THCS" "THPT" "Dai_hoc" ...
##  $ thu_nhap : int  7150000 7300000 7450000 7600000 7750000 7900000 8050000 8200000 8350000 8500000 ...
##  $ chi_tieu : int  5100000 5200000 5300000 5400000 5500000 5600000 5700000 5800000 5900000 6000000 ...
##  $ tiet_kiem: int  2050000 2100000 2150000 2200000 2250000 2300000 2350000 2400000 2450000 2500000 ...

Hoạt động 2:

table1(~ thu_nhap + chi_tieu + tiet_kiem | khu_vuc, data=dulieu)
Nong_thon
(N=50)
Thanh_thi
(N=50)
Overall
(N=100)
thu_nhap
Mean (SD) 14500000 (4370000) 14700000 (4370000) 14600000 (4350000)
Median [Min, Max] 14500000 [7150000, 21900000] 14700000 [7300000, 22000000] 14600000 [7150000, 22000000]
chi_tieu
Mean (SD) 10000000 (2920000) 10100000 (2920000) 10100000 (2900000)
Median [Min, Max] 10000000 [5100000, 14900000] 10100000 [5200000, 15000000] 10100000 [5100000, 15000000]
tiet_kiem
Mean (SD) 4500000 (1460000) 4550000 (1460000) 4530000 (1450000)
Median [Min, Max] 4500000 [2050000, 6950000] 4550000 [2100000, 7000000] 4530000 [2050000, 7000000]
table1(~ thu_nhap + chi_tieu + tiet_kiem | hoc_van, data=dulieu)
Dai_hoc
(N=25)
THCS
(N=50)
THPT
(N=25)
Overall
(N=100)
thu_nhap
Mean (SD) 14800000 (4420000) 14500000 (4370000) 14500000 (4410000) 14600000 (4350000)
Median [Min, Max] 14800000 [7600000, 22000000] 14400000 [7150000, 21700000] 14700000 [7450000, 21900000] 14600000 [7150000, 22000000]
chi_tieu
Mean (SD) 10200000 (2940000) 10000000 (2920000) 10000000 (2940000) 10100000 (2900000)
Median [Min, Max] 10200000 [5400000, 15000000] 9950000 [5100000, 14800000] 10100000 [5300000, 14900000] 10100000 [5100000, 15000000]
tiet_kiem
Mean (SD) 4600000 (1470000) 4500000 (1460000) 4500000 (1470000) 4530000 (1450000)
Median [Min, Max] 4600000 [2200000, 7000000] 4480000 [2050000, 6900000] 4550000 [2150000, 6950000] 4530000 [2050000, 7000000]

Nhận xét: - Khu vực thành thị có thu nhập, chi tiêu và tiết kiệm trung bình cao hơn so với khu vực nông thôn. - Sự khác nhau trong thu nhập, chi tiêu, tiết kiệm giữa các nhóm học vấn: Nhóm đại học có thu nhập, chi tiêu và tiết kiệm cao nhất. Hai nhóm THCS và THPT có mức thu nhập, chi tiêu và tiết kiệm thấp hơn và gần tương đương nhau. Điều này cho thấy trình độ học vấn cao thường đi kèm thu nhập và khả năng tiết kiệm cao hơn.


Hoạt động 3:

Biểu đồ phân bố thu nhập (histogram):

ggplot(dulieu, aes(x=thu_nhap)) +
geom_histogram(bins=30)

Biểu đồ chi tiêu theo khu vực(box plot):

ggplot(dulieu, aes(x=khu_vuc, y=chi_tieu)) +
geom_boxplot()

Biểu đồ thu nhập – chi tiêu(scatter plot):

ggplot(dulieu, aes(x=thu_nhap, y=chi_tieu)) +
geom_point()

Phân tích và đánh giá: Dựa trên kết quả phân tích dữ liệu và các biểu đồ trực quan, có thể thấy thu nhập có ảnh hưởng rõ rệt đến mức chi tiêu của hộ gia đình. Trong biểu đồ giữa thu nhập và chi tiêu, các điểm dữ liệu phân bố theo xu hướng tăng dần, cho thấy khi thu nhập tăng thì chi tiêu cũng tăng. Điều này phản ánh mối quan hệ cùng chiều giữa hai biến. Các hộ gia đình có thu nhập cao thường có khả năng chi tiêu nhiều hơn cho các nhu cầu sinh hoạt, giáo dục, y tế và các dịch vụ khác. Do đó, có thể kết luận rằng thu nhập là một yếu tố quan trọng ảnh hưởng đến hành vi chi tiêu của hộ gia đình. Ngoài ra, kết quả phân tích cũng cho thấy sự khác biệt về thu nhập giữa các khu vực sinh sống. Dựa trên bảng thống kê mô tả và biểu đồ so sánh chi tiêu theo khu vực, các hộ gia đình ở khu vực thành thị có mức thu nhập trung bình cao hơn so với các hộ ở khu vực nông thôn. Điều này có thể được giải thích bởi việc khu vực thành thị thường có nhiều cơ hội việc làm hơn, mức lương cao hơn và điều kiện kinh tế phát triển hơn so với khu vực nông thôn. Vì vậy, mức chi tiêu của các hộ gia đình ở thành thị cũng có xu hướng cao hơn. Kết quả phân tích nhìn chung phù hợp với lý thuyết kinh tế tiêu dùng. Theo lý thuyết, khi thu nhập của hộ gia đình tăng lên thì mức tiêu dùng cũng tăng theo, tuy nhiên mức tăng của tiêu dùng thường thấp hơn mức tăng của thu nhập do một phần thu nhập được dành cho tiết kiệm. Điều này cũng được thể hiện trong dữ liệu khi thu nhập tăng kéo theo chi tiêu tăng, đồng thời các hộ gia đình vẫn có một phần thu nhập dành cho tiết kiệm. Như vậy, kết quả phân tích dữ liệu đã phản ánh khá rõ các đặc điểm cơ bản của hành vi tiêu dùng trong kinh tế học.