1 Đường liên kết đến dữ liệu:

https://docs.google.com/spreadsheets/d/1tGxfCjxA_LZ3FJgSGzdXCp9ZIFE6Qmjvnneyy7A3BFg/edit#gid=412788956

Dữ liệu em sử dụng trong bài tiểu luận là bộ dữ liệu mô tả về việc theo dõi và duy trì danh sách các giao dịch bất động sản có giá bán từ 2,000 đô la trở lên diễn ra từ ngày 1 tháng 10 đến ngày 30 tháng 9 hàng năm. Văn bản cũng mô tả nội dung của tập dữ liệu, bao gồm thông tin về thị trấn, địa chỉ bất động sản, ngày giao dịch, loại tài sản (dân cư, căn hộ, thương mại, công nghiệp hoặc đất không sử dụng), giá bán và đánh giá tài sản.

Dữ liệu được thu thập theo các quy định của Connecticut General Statutes, phần 10-261a và 10-261b: https://www.cga.ct.gov/current/pub/chap_172.htm#sec_10-261ahttps://www.cga.ct.gov/current/pub/chap_172.htm#sec_10-261b. Các giao dịch bất động sản hàng năm được báo cáo theo năm danh sách tổng (từ ngày 1 tháng 10 đến ngày 30 tháng 9 hàng năm).

Các biến chính được em chọn để phân tích trong bộ dữ liệu bao gồm:

  1. Serial Number: Số thứ tự duy nhất cho mỗi giao dịch bất động sản.
  2. List Year: Năm đăng ký giao dịch bất động sản.
  3. Date Recorded: Ngày giao dịch bất động sản được ghi nhận.
  4. Town: Thành phố, khu vực hoặc vùng địa lý nơi giao dịch bất động sản diễn ra.
  5. Address: Địa chỉ của bất động sản.
  6. Assessed Value: Giá trị được định giá của bất động sản (thường được sử dụng cho mục đích thuế).
  7. Sale Amount: Giá bán bất động sản.
  8. Sales Ratio: Tỷ lệ giá bán so với giá trị được định giá của bất động sản (Assessed Value).
  9. Property Type: Loại tài sản (căn hộ, nhà riêng, đất trống, v.v.).
  10. Residential Type: Loại tài sản sử dụng cho mục đích sống hoặc sinh hoạt (nhà ở riêng lẻ, căn hộ, biệt thự, v.v.).

Các biến trên đại diện cho thông tin chi tiết về các giao dịch bất động sản, cho phép người dùng phân tích và nghiên cứu thị trường bất động sản trong khoảng thời gian từ ngày 1 tháng 10 đến ngày 30 tháng 9 của mỗi năm. Bộ dữ liệu này có thể cung cấp thông tin quan trọng về giá cả và giao dịch bất động sản trong khu vực và thời gian cụ thể.

2 Phân tích thống kê

2.1 Đọc dữ liệu

library(readxl)
## Warning: package 'readxl' was built under R version 4.2.3
data <- read_excel("C:\\Users\\ACER\\OneDrive\\Máy tính\\Data.xlsx")
str(data)
## tibble [105,653 × 14] (S3: tbl_df/tbl/data.frame)
##  $ Serial Number   : num [1:105653] 2020177 2020225 2020348 2020090 200500 ...
##  $ List Year       : num [1:105653] 2020 2020 2020 2020 2020 2020 2020 2020 2020 2020 ...
##  $ Date Recorded   : POSIXct[1:105653], format: "2021-04-14" "2021-05-26" ...
##  $ Town            : chr [1:105653] "Ansonia" "Ansonia" "Ansonia" "Ansonia" ...
##  $ Address         : chr [1:105653] "323 BEAVER ST" "152 JACKSON ST" "230 WAKELEE AVE" "57 PLATT ST" ...
##  $ Assessed Value  : num [1:105653] 133000 110500 150500 127400 217640 ...
##  $ Sale Amount     : num [1:105653] 248400 239900 325000 202500 400000 ...
##  $ Sales Ratio     : num [1:105653] 0.535 0.461 0.463 0.629 0.544 ...
##  $ Property Type   : chr [1:105653] "Residential" "Residential" "Commercial" "Residential" ...
##  $ Residential Type: chr [1:105653] "Single Family" "Three Family" NA "Two Family" ...
##  $ Non Use Code    : chr [1:105653] NA NA NA NA ...
##  $ Assessor Remarks: chr [1:105653] NA NA NA NA ...
##  $ OPM remarks     : chr [1:105653] NA NA NA NA ...
##  $ Location        : chr [1:105653] "POINT (-73.06822 41.35014)" NA NA NA ...

2.2 Phân tích thống kê

# Tính giá trị trung bình và độ lệch chuẩn của giá bán và đánh giá tài sản
mean_sales_price <- mean(data$`Sale Amount`)
median_sales_prices <- median(data$`Sale Amount`)
sd_sales_price <- sd(data$`Sale Amount`)
# Đếm số lượng giao dịch bất động sản của từng loại tài sản
count_property_type <- table(data$`Property Type`)
count_property_type
## 
##     Apartments     Commercial          Condo     Industrial Public Utility 
##            486           1981            344            228              5 
##    Residential  Single Family     Two Family    Vacant Land 
##          60728              1              7           3163

Giá trị trung bình của giá bán là 472,047 có thể cho thấy điều sau:

  • Trung bình giá bán: Giá trị trung bình của giá bán là 472,047, điều này có thể đại diện cho giá trung bình của tất cả các giao dịch bất động sản trong bộ dữ liệu. Nó cung cấp thông tin về mức giá trung bình mà người mua đã chi trả cho bất động sản.

  • Phân phối giá bán: trung bình(472047) xa giá trị trung vị (238000), điều này có thể cho thấy phân phối giá bán không đồng đều,có sự biến động lớn trong giá bán,đã có xuất hiện các giao dịch bất thường.

  • Đánh giá giá bán hiện tại: Giá trung bình cao so với các năm trước đó và so với giá trị của bất động sản tại khu vực tương tự, điều này có thể cho thấy sự tăng giá mạnh của thị trường bất động sản.

  • Từ đó có thể cho rằng bất động sản có Tiềm năng đầu tư

2.3 Phân tích biến hạng mục

# Trực quan hóa số lượng giao dịch bất động sản của từng loại tài sản bằng biểu đồ cột
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.2.3
ggplot(data, aes(x = data$`Property Type`)) +
  geom_bar() +
  labs(title = "Số lượng giao dịch bất động sản theo loại tài sản",
       x = "Loại tài sản",
       y = "Số lượng")
## Warning: Use of `` data$`Property Type` `` is discouraged.
## ℹ Use `Property Type` instead.

Biểu đồ trực quan hóa số lượng giao dịch bất động sản cùng từng loại tài sản cho thấy rằng

  1. Có sự đa dạng về loại tài sản: Biểu đồ cột cho ta thấy và dễ dàng so sánh số lượng giao dịch của từng loại tài sản. Biểu đồ có nhiều cột cho thấy có nhiều loại tài sản khác nhau, điều này cho thấy rằng thị trường bất động sản đang có sự đa dạng về các loại tài sản được giao dịch.

  2. Phổ biến của loại tài sản: Residential là tài sản có số lượng giao dịch cao nhất ( gần 60000) (cột có chiều cao cao nhất), điều này cho thấy rằng những loại tài sản này phổ biến hơn so với các loại khác.

  • Đánh giá tốc độ giao dịch: Ta thấy có cột Residential và cột NA ( tài sản khác) , điều này cho thấy rằng có sự chênh lệch về tốc độ giao dịch giữa các loại tài sản.

  • Phân loại tài sản quan trọng: Biểu đồ cột có thể giúp ta xác định các loại tài sản quan trọng (nhiều giao dịch) và không quan trọng (ít giao dịch), từ đó đưa ra các quyết định liên quan đến đầu tư hoặc phân loại tài sản.

# Vẽ biểu đồ phân tán để kiểm tra mối quan hệ giữa giá bán và đánh giá tài sản
ggplot(data, aes(x = data$`Sale Amount`, y = data$`Property Type`)) +
  geom_point() +
  labs(title = "Mối quan hệ giữa giá bán và đánh giá tài sản",
       x = "Giá bán",
       y = "Đánh giá tài sản")
## Warning: Use of `` data$`Sale Amount` `` is discouraged.
## ℹ Use `Sale Amount` instead.
## Warning: Use of `` data$`Property Type` `` is discouraged.
## ℹ Use `Property Type` instead.