Tổng quan về dữ liệu

Cấu trúc của dữ liệu

str(Data)
## 'data.frame':    200000 obs. of  25 variables:
##  $ property_id            : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ country                : chr  "France" "South Africa" "South Africa" "Germany" ...
##  $ city                   : chr  "Marseille" "Cape Town" "Johannesburg" "Frankfurt" ...
##  $ property_type          : chr  "Farmhouse" "Apartment" "Farmhouse" "Farmhouse" ...
##  $ furnishing_status      : chr  "Semi-Furnished" "Semi-Furnished" "Semi-Furnished" "Semi-Furnished" ...
##  $ property_size_sqft     : int  991 1244 4152 3714 531 3169 1986 4048 5213 4648 ...
##  $ price                  : int  412935 224538 745104 1110959 99041 1107368 398439 807236 3131373 1483250 ...
##  $ constructed_year       : int  1989 1990 2019 2008 2007 1985 1976 2020 1968 1966 ...
##  $ previous_owners        : int  6 4 5 1 6 0 1 4 6 2 ...
##  $ rooms                  : int  6 8 2 3 3 5 2 6 2 5 ...
##  $ bathrooms              : int  2 8 1 3 3 2 1 6 1 2 ...
##  $ garage                 : int  1 1 1 0 1 1 1 1 0 0 ...
##  $ garden                 : int  1 1 1 1 1 0 0 1 0 1 ...
##  $ crime_cases_reported   : int  1 1 0 0 3 0 0 1 0 0 ...
##  $ legal_cases_on_property: int  0 1 0 0 1 0 0 0 0 1 ...
##  $ customer_salary        : int  10745 16970 21914 17980 17676 95520 11426 29832 56255 67350 ...
##  $ loan_amount            : int  193949 181465 307953 674720 65833 793316 268167 503385 1866416 1093290 ...
##  $ loan_tenure_years      : int  15 20 30 15 25 30 25 20 15 10 ...
##  $ monthly_expenses       : int  6545 8605 2510 8805 8965 10615 14440 7200 10300 16360 ...
##  $ down_payment           : int  218986 43073 437151 436239 33208 314052 130272 303851 1264957 389960 ...
##  $ emi_to_income_ratio    : num  0.16 0.08 0.09 0.33 0.03 0.05 0.16 0.13 0.29 0.18 ...
##  $ satisfaction_score     : int  1 9 6 2 3 10 9 1 8 1 ...
##  $ neighbourhood_rating   : int  5 1 8 6 3 8 10 5 8 4 ...
##  $ connectivity_score     : int  6 2 1 6 4 2 10 8 10 7 ...
##  $ decision               : int  0 0 0 0 0 1 1 0 1 0 ...

Bộ dữ liệu Global House Purchase Dataset được sử dụng trong nghiên cứu này nhằm phân tích các yếu tố cơ bản của thị trường bất động sản toàn cầu. Dữ liệu bao gồm thông tin về giá bán, loại hình bất động sản, số phòng, diện tích, và quốc gia giao dịch, được thu thập từ nhiều khu vực khác nhau trên thế giới.

Bộ dữ liệu chứa tổng cộng 200000 dòng (quan sát) và 25 cột (biến) (số liệu chính xác xác định bằng hàm str(Data) trong R).Mỗi dòng tương ứng với một giao dịch nhà ở riêng lẻ.

• Bộ dữ liệu có nguồn gốc từ nhiều quốc gia, phản ánh sự khác biệt về thị trường và mức giá bất động sản toàn cầu.

• Các biến số như price, property_size_sqft, rooms giúp phân tích định lượng,trong khi các biến phân loại như country và property_type hỗ trợ phân tổ, so sánh giữa các nhóm.

• Sau khi xử lý làm sạch, bộ dữ liệu này được dùng cho các bước phân tích mô tả, phân tích đơn biến, song biến, và có thể mở rộng sang mô hình dự báo giá nhà.

Ý nghĩa các biến

Country có kiểu dữ liệu là Character, mô tả Quốc gia nơi diễn ra giao dịch bất động sản.

City có kiểu dữ liệu là Character, mô tả Khu vực thuộc quốc gia . Property_type có kiểu dữ liệu là Character, mô tả Loại hình nhà ở.

Rooms có kiểu dữ liệu là Integer, mô tả Số phòng.

Property_size_sqft có kiểu dữ liệu là Integer, mô tả diện tích nhà.

Price có kiểu dữ liệu là Integer, mô tả Giá mua.

Kiểm tra giá trị bị thiếu

colSums(is.na(Data))
##             property_id                 country                    city 
##                       0                       0                       0 
##           property_type       furnishing_status      property_size_sqft 
##                       0                       0                       0 
##                   price        constructed_year         previous_owners 
##                       0                       0                       0 
##                   rooms               bathrooms                  garage 
##                       0                       0                       0 
##                  garden    crime_cases_reported legal_cases_on_property 
##                       0                       0                       0 
##         customer_salary             loan_amount       loan_tenure_years 
##                       0                       0                       0 
##        monthly_expenses            down_payment     emi_to_income_ratio 
##                       0                       0                       0 
##      satisfaction_score    neighbourhood_rating      connectivity_score 
##                       0                       0                       0 
##                decision 
##                       0

→ Kết quả: Tất cả các cột đều có giá trị 0, nghĩa là không có giá trị bị thiếu (NA) trong toàn bộ tập dữ liệu.

Kiểm tra giá trị trùng lặp

sum(duplicated(Data))
## [1] 0

→ Kết quả: Kết quả trả về là 0, nghĩa là không có dòng nào bị trùng lặp trong tập dữ liệu.

Phân tổ các biến trong dữ liệu

Tải các gói cần thiết

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)

Phân tổ theo Quốc gia (Country)

group_country <- Data %>%
  group_by(country) %>%
  summarise(
    Average_Price = mean(price, na.rm = TRUE),
    Transactions = n()
  ) %>%
  arrange(desc(Average_Price))
show(group_country)
## # A tibble: 13 × 3
##    country      Average_Price Transactions
##    <chr>                <dbl>        <int>
##  1 Singapore         2239027.        15278
##  2 UAE               1907340.        15141
##  3 USA               1603146.        15281
##  4 Japan             1437475.        15317
##  5 France            1343234.        15628
##  6 UK                1281218.        15413
##  7 China             1219038.        15536
##  8 Canada            1112176.        15401
##  9 Australia         1028264.        15442
## 10 Germany            958093.        15408
## 11 Brazil             640083.        15397
## 12 South Africa       573335.        15401
## 13 India              477798.        15357

Tại Hoa Kỳ, giá trung bình của các bất động sản trong mẫu là 1603145,7 USD, phản ánh thị trường nhà ở cao cấp,… với số lượng giao dịch là 15281.

Trong khi đó ở Ấn Độ với phân cấp xã hội cao nên giá trung bình cho một ngôi nhà chỉ là 477798.0 USD với mức độ giao dịch là 15347.

Phân tổ theo loại nhà (Property type)

group_type <- Data %>%
  group_by(property_type) %>%
  summarise(
    Average_Price = mean(price, na.rm = TRUE),
    Average_Area = mean(property_size_sqft, na.rm = TRUE),
    Transactions = n()
  ) %>%
  arrange(desc(Average_Price))
show(group_type)
## # A tibble: 6 × 4
##   property_type     Average_Price Average_Area Transactions
##   <chr>                     <dbl>        <dbl>        <int>
## 1 Farmhouse              1220262.        3194.        33518
## 2 Townhouse              1216972.        3195.        33395
## 3 Apartment              1216839.        3200.        33398
## 4 Independent House      1213903.        3197.        33334
## 5 Studio                 1212892.        3201.        33008
## 6 Villa                  1211267.        3187.        33347

Kết quả thống kê cho thấy sự chênh lệch giá trung bình giữa các loại hình nhà ở là tương đối nhỏ, dao động quanh mức 1,21 triệu USD. Cụ thể:

Farmhouse có giá trung bình cao nhất (≈ 1,22 triệu USD), diện tích khoảng 3.193 sqft, thường là các bất động sản có diện tích lớn, nằm ở khu vực ngoại ô hoặc nông thôn, phù hợp với đối tượng có thu nhập cao.

TownhouseApartment có giá trung bình tương đương (~1,216 triệu USD), diện tích trung bình khoảng 3.190–3.200 sqft. Đây là hai loại hình phổ biến trong khu vực thành thị, phù hợp với người mua tầm trung và các gia đình trẻ.

Independent HouseStudio cũng có mức giá tương tự (~1,21 triệu USD). Mặc dù Studio có diện tích nhỏ hơn trong thực tế, nhưng giá trung bình cao có thể phản ánh vị trí trung tâm hoặc tiện ích cao cấp.

Villa có giá trung bình thấp nhất (≈ 1,211 triệu USD) trong nhóm, tuy nhiên vẫn nằm ở mức rất cao, thể hiện đặc trưng của loại hình nhà riêng sang trọng với diện tích lớn và giá trị ổn định.

Nhìn chung, sự khác biệt giữa các loại hình nhà ở không đáng kể, điều này có thể do bộ dữ liệu đã được thu thập từ nhiều quốc gia và thị trường có mức giá tương đối tương đồng trong từng phân khúc.

Tuy nhiên, xét theo bản chất sử dụng, FarmhouseVilla có xu hướng hướng đến khách hàng cao cấp, trong khi ApartmentTownhouse lại phổ biến hơn với tầng lớp trung lưu ở khu đô thị.

Phân tổ theo giá (Price)

data <- Data %>%
  mutate(
    Price_Group = case_when(
      price < 200000 ~ "Low range house (<200K)",
      price >= 200000 & price < 500000 ~ "Mid range house (200K-500K)",
      price >= 500000 & price < 1000000 ~ "High range house (500K-1M)",
      price >= 1000000 ~ "Luxury house (>1M)"
    )
  )
group_price <- data %>%
  group_by(Price_Group) %>%
  summarise(
    Avg_Price = mean(price, na.rm = TRUE),
    Avg_Area = mean(property_size_sqft, na.rm = TRUE),
    Avg_Rooms = mean(rooms, na.rm = TRUE),
    Count = n()
  ) %>%
  arrange(Avg_Price)
show(group_price)
## # A tibble: 4 × 5
##   Price_Group                 Avg_Price Avg_Area Avg_Rooms  Count
##   <chr>                           <dbl>    <dbl>     <dbl>  <int>
## 1 Low range house (<200K)       144937.     696.      4.52   8875
## 2 Mid range house (200K-500K)   351378.    1388.      4.53  33615
## 3 High range house (500K-1M)    743529.    2815.      4.52  55274
## 4 Luxury house (>1M)           1847464.    4213.      4.51 102236

Nhóm Low range house (<200K) có giá trung bình khoảng 145.000 USD, với diện tích trung bình chỉ khoảng 700 sqft, phản ánh các bất động sản nhỏ hoặc nhà ở bình dân.

Nhóm Mid range house (200K–500K) có giá trung bình khoảng 351.000 USD, diện tích khoảng 1.400 sqft, là phân khúc phổ biến nhất với hơn 33.000 giao dịch, chiếm tỷ trọng lớn trong mẫu.

Nhóm High range house (500K–1M) có giá trung bình 744.000 USD và diện tích khoảng 2.800 sqft, cho thấy sự tương quan giữa quy mô và giá trị căn nhà.

Cuối cùng, nhóm Luxury house (>1M) có giá trung bình 1,85 triệu USD, diện tích trung bình hơn 4.200 sqft, chiếm hơn 100.000 giao dịch — thể hiện phân khúc cao cấp với quy mô lớn và giá trị cao.

Phân tích các biến trong dữ liệu

Phân tích biến Price

## # A tibble: 4 × 3
##   Price_Group  Count Percent
##   <chr>        <int>   <dbl>
## 1 Rất cao     102236   51.1 
## 2 Cao          55274   27.6 
## 3 Trung bình   33615   16.8 
## 4 Thấp          8875    4.44

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   56288  565990 1023429 1215365 1725557 4202732

Dữ liệu cho thấy phân khúc “Rất cao” chiếm tỷ trọng lớn nhất, hơn một nửa tổng số giao dịch (≈ 51.12%).Đây là nhóm các bất động sản có giá trên 1 triệu USD, phản ánh sự tập trung mạnh của bộ dữ liệu vào thị trường nhà ở cao cấp.

Tiếp theo là phân khúc “Cao” (500K–1M) chiếm 27.64%, và “Trung bình” (200K–500K) chiếm 16.81%, thể hiện mức độ phổ biến ở các nhóm khách hàng trung lưu và thượng lưu.

Trong khi đó, phân khúc “Thấp” (<200K) chỉ chiếm 4.44%, cho thấy số lượng bất động sản giá rẻ trong tập dữ liệu là rất nhỏ — điều này phù hợp với đặc điểm của các thị trường phát triển (như Mỹ, Anh, Canada), nơi giá nhà trung bình thường cao.

Như vậy, bộ dữ liệu có xu hướng nghiêng mạnh về các phân khúc cao cấp, điều này cần được lưu ý khi tiến hành các bước phân tích thống kê và mô hình dự báo giá sau này.

Phân tích biến country

## 
##    Australia       Brazil       Canada        China       France      Germany 
##        15442        15397        15401        15536        15628        15408 
##        India        Japan    Singapore South Africa          UAE           UK 
##        15357        15317        15278        15401        15141        15413 
##          USA 
##        15281
## # A tibble: 13 × 3
##    country      Count Percent
##    <chr>        <int>   <dbl>
##  1 France       15628    7.81
##  2 China        15536    7.77
##  3 Australia    15442    7.72
##  4 UK           15413    7.71
##  5 Germany      15408    7.7 
##  6 Canada       15401    7.7 
##  7 South Africa 15401    7.7 
##  8 Brazil       15397    7.7 
##  9 India        15357    7.68
## 10 Japan        15317    7.66
## 11 USA          15281    7.64
## 12 Singapore    15278    7.64
## 13 UAE          15141    7.57

Kết quả thống kê cho thấy số lượng giao dịch giữa các quốc gia khá đồng đều, dao động trong khoảng 15.000–15.600 giao dịch, tương ứng với tỷ lệ 7.5–7.8% cho mỗi quốc gia.

Điều này cho thấy bộ dữ liệu có tính phân bổ cân đối theo quốc gia, giúp đảm bảo tính đại diện khi phân tích toàn cầu. Một số nhận xét cụ thể: • France (Pháp) là quốc gia có số lượng giao dịch cao nhất (15,628 – chiếm 7.81%), phản ánh hoạt động mua bán bất động sản sôi động tại các khu đô thị lớn như Paris hoặc Lyon.

China (Trung Quốc)Australia (Úc) lần lượt đứng thứ hai và ba với tỷ lệ 7.77% và 7.72%, thể hiện vai trò nổi bật của các thị trường châu Á – Thái Bình Dương.

• Các quốc gia phát triển khác như Anh, Đức, Canada, Mỹ, Nhật Bản, Singapore đều có tỷ lệ gần tương đương (~7.6–7.7%), thể hiện sự phân bố hợp lý giữa các thị trường lớn.

UAE (Các Tiểu Vương quốc Ả Rập Thống Nhất) có số lượng giao dịch thấp nhất (15,141 – chiếm 7.57%), nhưng vẫn giữ tỷ lệ đáng kể, thể hiện vai trò của thị trường bất động sản Trung Đông.

Nhìn chung, dữ liệu bao phủ đa dạng khu vực địa lý (Châu Âu, Châu Á, Châu Mỹ, Châu Đại Dương, Châu Phi),cho phép tiến hành các so sánh liên vùng hoặc phân tích toàn cầu trong các phần tiếp theo.

Phân tích biến Property type

## # A tibble: 6 × 3
##   property_type     Count Percent
##   <chr>             <int>   <dbl>
## 1 Farmhouse         33518    16.8
## 2 Apartment         33398    16.7
## 3 Townhouse         33395    16.7
## 4 Villa             33347    16.7
## 5 Independent House 33334    16.7
## 6 Studio            33008    16.5

Có thể thấy, tỷ lệ giữa các loại hình bất động sản trong dữ liệu rất đồng đều, mỗi loại chiếm khoảng 16–17% tổng số giao dịch.

Điều này cho thấy bộ dữ liệu có sự phân bố cân bằng giữa các loại hình nhà ở, không có sự chênh lệch lớn về số lượng. Cụ thể:

Farmhouse chiếm tỷ trọng cao nhất (16.76%), thường là các bất động sản có diện tích lớn và giá trị cao.

ApartmentTownhouse lần lượt chiếm 16.70%, là hai loại hình phổ biến nhất trong khu vực đô thị, phù hợp với người mua có thu nhập trung bình – khá.

VillaIndependent House có tỷ trọng tương tự (~16.67%), đại diện cho phân khúc cao cấp hoặc nhà riêng biệt.

• Studio chiếm tỷ lệ thấp nhất (16.50%), phản ánh loại hình nhà diện tích nhỏ, thường dùng cho mục đích thuê hoặc đầu tư ngắn hạn.

Nhìn chung, sự cân bằng trong tỷ lệ giữa các loại hình cho thấy bộ dữ liệu được thu thập đa dạng và mang tính đại diện cao, giúp phân tích sâu hơn về sự khác biệt về giá, diện tích, hoặc khu vực địa lý giữa các nhóm này trong các bước tiếp theo.