str(Data)
## 'data.frame': 200000 obs. of 25 variables:
## $ property_id : int 1 2 3 4 5 6 7 8 9 10 ...
## $ country : chr "France" "South Africa" "South Africa" "Germany" ...
## $ city : chr "Marseille" "Cape Town" "Johannesburg" "Frankfurt" ...
## $ property_type : chr "Farmhouse" "Apartment" "Farmhouse" "Farmhouse" ...
## $ furnishing_status : chr "Semi-Furnished" "Semi-Furnished" "Semi-Furnished" "Semi-Furnished" ...
## $ property_size_sqft : int 991 1244 4152 3714 531 3169 1986 4048 5213 4648 ...
## $ price : int 412935 224538 745104 1110959 99041 1107368 398439 807236 3131373 1483250 ...
## $ constructed_year : int 1989 1990 2019 2008 2007 1985 1976 2020 1968 1966 ...
## $ previous_owners : int 6 4 5 1 6 0 1 4 6 2 ...
## $ rooms : int 6 8 2 3 3 5 2 6 2 5 ...
## $ bathrooms : int 2 8 1 3 3 2 1 6 1 2 ...
## $ garage : int 1 1 1 0 1 1 1 1 0 0 ...
## $ garden : int 1 1 1 1 1 0 0 1 0 1 ...
## $ crime_cases_reported : int 1 1 0 0 3 0 0 1 0 0 ...
## $ legal_cases_on_property: int 0 1 0 0 1 0 0 0 0 1 ...
## $ customer_salary : int 10745 16970 21914 17980 17676 95520 11426 29832 56255 67350 ...
## $ loan_amount : int 193949 181465 307953 674720 65833 793316 268167 503385 1866416 1093290 ...
## $ loan_tenure_years : int 15 20 30 15 25 30 25 20 15 10 ...
## $ monthly_expenses : int 6545 8605 2510 8805 8965 10615 14440 7200 10300 16360 ...
## $ down_payment : int 218986 43073 437151 436239 33208 314052 130272 303851 1264957 389960 ...
## $ emi_to_income_ratio : num 0.16 0.08 0.09 0.33 0.03 0.05 0.16 0.13 0.29 0.18 ...
## $ satisfaction_score : int 1 9 6 2 3 10 9 1 8 1 ...
## $ neighbourhood_rating : int 5 1 8 6 3 8 10 5 8 4 ...
## $ connectivity_score : int 6 2 1 6 4 2 10 8 10 7 ...
## $ decision : int 0 0 0 0 0 1 1 0 1 0 ...
Bộ dữ liệu Global House Purchase Dataset được sử dụng trong nghiên cứu này nhằm phân tích các yếu tố cơ bản của thị trường bất động sản toàn cầu. Dữ liệu bao gồm thông tin về giá bán, loại hình bất động sản, số phòng, diện tích, và quốc gia giao dịch, được thu thập từ nhiều khu vực khác nhau trên thế giới.
Bộ dữ liệu chứa tổng cộng 200000 dòng (quan sát) và 25 cột (biến) (số liệu chính xác xác định bằng hàm str(Data) trong R).Mỗi dòng tương ứng với một giao dịch nhà ở riêng lẻ.
• Bộ dữ liệu có nguồn gốc từ nhiều quốc gia, phản ánh sự khác biệt về thị trường và mức giá bất động sản toàn cầu.
• Các biến số như price, property_size_sqft, rooms giúp phân tích định lượng,trong khi các biến phân loại như country và property_type hỗ trợ phân tổ, so sánh giữa các nhóm.
• Sau khi xử lý làm sạch, bộ dữ liệu này được dùng cho các bước phân tích mô tả, phân tích đơn biến, song biến, và có thể mở rộng sang mô hình dự báo giá nhà.
Ý nghĩa các biến
Country có kiểu dữ liệu là Character, mô tả Quốc gia nơi diễn ra giao dịch bất động sản.
City có kiểu dữ liệu là Character, mô tả Khu vực thuộc quốc gia . Property_type có kiểu dữ liệu là Character, mô tả Loại hình nhà ở.
Rooms có kiểu dữ liệu là Integer, mô tả Số phòng.
Property_size_sqft có kiểu dữ liệu là Integer, mô tả diện tích nhà.
Price có kiểu dữ liệu là Integer, mô tả Giá mua.
colSums(is.na(Data))
## property_id country city
## 0 0 0
## property_type furnishing_status property_size_sqft
## 0 0 0
## price constructed_year previous_owners
## 0 0 0
## rooms bathrooms garage
## 0 0 0
## garden crime_cases_reported legal_cases_on_property
## 0 0 0
## customer_salary loan_amount loan_tenure_years
## 0 0 0
## monthly_expenses down_payment emi_to_income_ratio
## 0 0 0
## satisfaction_score neighbourhood_rating connectivity_score
## 0 0 0
## decision
## 0
→ Kết quả: Tất cả các cột đều có giá trị 0, nghĩa là không có giá trị bị thiếu (NA) trong toàn bộ tập dữ liệu.
sum(duplicated(Data))
## [1] 0
→ Kết quả: Kết quả trả về là 0, nghĩa là không có dòng nào bị trùng lặp trong tập dữ liệu.
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
group_country <- Data %>%
group_by(country) %>%
summarise(
Average_Price = mean(price, na.rm = TRUE),
Transactions = n()
) %>%
arrange(desc(Average_Price))
show(group_country)
## # A tibble: 13 × 3
## country Average_Price Transactions
## <chr> <dbl> <int>
## 1 Singapore 2239027. 15278
## 2 UAE 1907340. 15141
## 3 USA 1603146. 15281
## 4 Japan 1437475. 15317
## 5 France 1343234. 15628
## 6 UK 1281218. 15413
## 7 China 1219038. 15536
## 8 Canada 1112176. 15401
## 9 Australia 1028264. 15442
## 10 Germany 958093. 15408
## 11 Brazil 640083. 15397
## 12 South Africa 573335. 15401
## 13 India 477798. 15357
Tại Hoa Kỳ, giá trung bình của các bất động sản trong mẫu là 1603145,7 USD, phản ánh thị trường nhà ở cao cấp,… với số lượng giao dịch là 15281.
Trong khi đó ở Ấn Độ với phân cấp xã hội cao nên giá trung bình cho một ngôi nhà chỉ là 477798.0 USD với mức độ giao dịch là 15347.
group_type <- Data %>%
group_by(property_type) %>%
summarise(
Average_Price = mean(price, na.rm = TRUE),
Average_Area = mean(property_size_sqft, na.rm = TRUE),
Transactions = n()
) %>%
arrange(desc(Average_Price))
show(group_type)
## # A tibble: 6 × 4
## property_type Average_Price Average_Area Transactions
## <chr> <dbl> <dbl> <int>
## 1 Farmhouse 1220262. 3194. 33518
## 2 Townhouse 1216972. 3195. 33395
## 3 Apartment 1216839. 3200. 33398
## 4 Independent House 1213903. 3197. 33334
## 5 Studio 1212892. 3201. 33008
## 6 Villa 1211267. 3187. 33347
Kết quả thống kê cho thấy sự chênh lệch giá trung bình giữa các loại hình nhà ở là tương đối nhỏ, dao động quanh mức 1,21 triệu USD. Cụ thể:
• Farmhouse có giá trung bình cao nhất (≈ 1,22 triệu USD), diện tích khoảng 3.193 sqft, thường là các bất động sản có diện tích lớn, nằm ở khu vực ngoại ô hoặc nông thôn, phù hợp với đối tượng có thu nhập cao.
• Townhouse và Apartment có giá trung bình tương đương (~1,216 triệu USD), diện tích trung bình khoảng 3.190–3.200 sqft. Đây là hai loại hình phổ biến trong khu vực thành thị, phù hợp với người mua tầm trung và các gia đình trẻ.
• Independent House và Studio cũng có mức giá tương tự (~1,21 triệu USD). Mặc dù Studio có diện tích nhỏ hơn trong thực tế, nhưng giá trung bình cao có thể phản ánh vị trí trung tâm hoặc tiện ích cao cấp.
• Villa có giá trung bình thấp nhất (≈ 1,211 triệu USD) trong nhóm, tuy nhiên vẫn nằm ở mức rất cao, thể hiện đặc trưng của loại hình nhà riêng sang trọng với diện tích lớn và giá trị ổn định.
Nhìn chung, sự khác biệt giữa các loại hình nhà ở không đáng kể, điều này có thể do bộ dữ liệu đã được thu thập từ nhiều quốc gia và thị trường có mức giá tương đối tương đồng trong từng phân khúc.
Tuy nhiên, xét theo bản chất sử dụng, Farmhouse và Villa có xu hướng hướng đến khách hàng cao cấp, trong khi Apartment và Townhouse lại phổ biến hơn với tầng lớp trung lưu ở khu đô thị.
data <- Data %>%
mutate(
Price_Group = case_when(
price < 200000 ~ "Low range house (<200K)",
price >= 200000 & price < 500000 ~ "Mid range house (200K-500K)",
price >= 500000 & price < 1000000 ~ "High range house (500K-1M)",
price >= 1000000 ~ "Luxury house (>1M)"
)
)
group_price <- data %>%
group_by(Price_Group) %>%
summarise(
Avg_Price = mean(price, na.rm = TRUE),
Avg_Area = mean(property_size_sqft, na.rm = TRUE),
Avg_Rooms = mean(rooms, na.rm = TRUE),
Count = n()
) %>%
arrange(Avg_Price)
show(group_price)
## # A tibble: 4 × 5
## Price_Group Avg_Price Avg_Area Avg_Rooms Count
## <chr> <dbl> <dbl> <dbl> <int>
## 1 Low range house (<200K) 144937. 696. 4.52 8875
## 2 Mid range house (200K-500K) 351378. 1388. 4.53 33615
## 3 High range house (500K-1M) 743529. 2815. 4.52 55274
## 4 Luxury house (>1M) 1847464. 4213. 4.51 102236
Nhóm Low range house (<200K) có giá trung bình khoảng 145.000 USD, với diện tích trung bình chỉ khoảng 700 sqft, phản ánh các bất động sản nhỏ hoặc nhà ở bình dân.
Nhóm Mid range house (200K–500K) có giá trung bình khoảng 351.000 USD, diện tích khoảng 1.400 sqft, là phân khúc phổ biến nhất với hơn 33.000 giao dịch, chiếm tỷ trọng lớn trong mẫu.
Nhóm High range house (500K–1M) có giá trung bình 744.000 USD và diện tích khoảng 2.800 sqft, cho thấy sự tương quan giữa quy mô và giá trị căn nhà.
Cuối cùng, nhóm Luxury house (>1M) có giá trung bình 1,85 triệu USD, diện tích trung bình hơn 4.200 sqft, chiếm hơn 100.000 giao dịch — thể hiện phân khúc cao cấp với quy mô lớn và giá trị cao.
## # A tibble: 4 × 3
## Price_Group Count Percent
## <chr> <int> <dbl>
## 1 Rất cao 102236 51.1
## 2 Cao 55274 27.6
## 3 Trung bình 33615 16.8
## 4 Thấp 8875 4.44
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 56288 565990 1023429 1215365 1725557 4202732
Dữ liệu cho thấy phân khúc “Rất cao” chiếm tỷ trọng lớn nhất, hơn một nửa tổng số giao dịch (≈ 51.12%).Đây là nhóm các bất động sản có giá trên 1 triệu USD, phản ánh sự tập trung mạnh của bộ dữ liệu vào thị trường nhà ở cao cấp.
Tiếp theo là phân khúc “Cao” (500K–1M) chiếm 27.64%, và “Trung bình” (200K–500K) chiếm 16.81%, thể hiện mức độ phổ biến ở các nhóm khách hàng trung lưu và thượng lưu.
Trong khi đó, phân khúc “Thấp” (<200K) chỉ chiếm 4.44%, cho thấy số lượng bất động sản giá rẻ trong tập dữ liệu là rất nhỏ — điều này phù hợp với đặc điểm của các thị trường phát triển (như Mỹ, Anh, Canada), nơi giá nhà trung bình thường cao.
Như vậy, bộ dữ liệu có xu hướng nghiêng mạnh về các phân khúc cao cấp, điều này cần được lưu ý khi tiến hành các bước phân tích thống kê và mô hình dự báo giá sau này.
##
## Australia Brazil Canada China France Germany
## 15442 15397 15401 15536 15628 15408
## India Japan Singapore South Africa UAE UK
## 15357 15317 15278 15401 15141 15413
## USA
## 15281
## # A tibble: 13 × 3
## country Count Percent
## <chr> <int> <dbl>
## 1 France 15628 7.81
## 2 China 15536 7.77
## 3 Australia 15442 7.72
## 4 UK 15413 7.71
## 5 Germany 15408 7.7
## 6 Canada 15401 7.7
## 7 South Africa 15401 7.7
## 8 Brazil 15397 7.7
## 9 India 15357 7.68
## 10 Japan 15317 7.66
## 11 USA 15281 7.64
## 12 Singapore 15278 7.64
## 13 UAE 15141 7.57
Kết quả thống kê cho thấy số lượng giao dịch giữa các quốc gia khá đồng đều, dao động trong khoảng 15.000–15.600 giao dịch, tương ứng với tỷ lệ 7.5–7.8% cho mỗi quốc gia.
Điều này cho thấy bộ dữ liệu có tính phân bổ cân đối theo quốc gia, giúp đảm bảo tính đại diện khi phân tích toàn cầu. Một số nhận xét cụ thể: • France (Pháp) là quốc gia có số lượng giao dịch cao nhất (15,628 – chiếm 7.81%), phản ánh hoạt động mua bán bất động sản sôi động tại các khu đô thị lớn như Paris hoặc Lyon.
• China (Trung Quốc) và Australia (Úc) lần lượt đứng thứ hai và ba với tỷ lệ 7.77% và 7.72%, thể hiện vai trò nổi bật của các thị trường châu Á – Thái Bình Dương.
• Các quốc gia phát triển khác như Anh, Đức, Canada, Mỹ, Nhật Bản, Singapore đều có tỷ lệ gần tương đương (~7.6–7.7%), thể hiện sự phân bố hợp lý giữa các thị trường lớn.
• UAE (Các Tiểu Vương quốc Ả Rập Thống Nhất) có số lượng giao dịch thấp nhất (15,141 – chiếm 7.57%), nhưng vẫn giữ tỷ lệ đáng kể, thể hiện vai trò của thị trường bất động sản Trung Đông.
Nhìn chung, dữ liệu bao phủ đa dạng khu vực địa lý (Châu Âu, Châu Á, Châu Mỹ, Châu Đại Dương, Châu Phi),cho phép tiến hành các so sánh liên vùng hoặc phân tích toàn cầu trong các phần tiếp theo.
## # A tibble: 6 × 3
## property_type Count Percent
## <chr> <int> <dbl>
## 1 Farmhouse 33518 16.8
## 2 Apartment 33398 16.7
## 3 Townhouse 33395 16.7
## 4 Villa 33347 16.7
## 5 Independent House 33334 16.7
## 6 Studio 33008 16.5
Có thể thấy, tỷ lệ giữa các loại hình bất động sản trong dữ liệu rất đồng đều, mỗi loại chiếm khoảng 16–17% tổng số giao dịch.
Điều này cho thấy bộ dữ liệu có sự phân bố cân bằng giữa các loại hình nhà ở, không có sự chênh lệch lớn về số lượng. Cụ thể:
• Farmhouse chiếm tỷ trọng cao nhất (16.76%), thường là các bất động sản có diện tích lớn và giá trị cao.
• Apartment và Townhouse lần lượt chiếm 16.70%, là hai loại hình phổ biến nhất trong khu vực đô thị, phù hợp với người mua có thu nhập trung bình – khá.
• Villavà Independent House có tỷ trọng tương tự (~16.67%), đại diện cho phân khúc cao cấp hoặc nhà riêng biệt.
• Studio chiếm tỷ lệ thấp nhất (16.50%), phản ánh loại hình nhà diện tích nhỏ, thường dùng cho mục đích thuê hoặc đầu tư ngắn hạn.
Nhìn chung, sự cân bằng trong tỷ lệ giữa các loại hình cho thấy bộ dữ liệu được thu thập đa dạng và mang tính đại diện cao, giúp phân tích sâu hơn về sự khác biệt về giá, diện tích, hoặc khu vực địa lý giữa các nhóm này trong các bước tiếp theo.