Dữ liệu em sử dụng trong bài tiểu luận là bộ dữ liệu mô tả về việc theo dõi và duy trì danh sách các giao dịch bất động sản có giá bán từ 2,000 đô la trở lên diễn ra từ ngày 1 tháng 10 đến ngày 30 tháng 9 hàng năm. Văn bản cũng mô tả nội dung của tập dữ liệu, bao gồm thông tin về thị trấn, địa chỉ bất động sản, ngày giao dịch, loại tài sản (dân cư, căn hộ, thương mại, công nghiệp hoặc đất không sử dụng), giá bán và đánh giá tài sản.
Dữ liệu được thu thập theo các quy định của Connecticut General Statutes, phần 10-261a và 10-261b: https://www.cga.ct.gov/current/pub/chap_172.htm#sec_10-261a và https://www.cga.ct.gov/current/pub/chap_172.htm#sec_10-261b. Các giao dịch bất động sản hàng năm được báo cáo theo năm danh sách tổng (từ ngày 1 tháng 10 đến ngày 30 tháng 9 hàng năm).
Các biến chính được em chọn để phân tích trong bộ dữ liệu bao gồm:
Các biến trên đại diện cho thông tin chi tiết về các giao dịch bất động sản, cho phép người dùng phân tích và nghiên cứu thị trường bất động sản trong khoảng thời gian từ ngày 1 tháng 10 đến ngày 30 tháng 9 của mỗi năm. Bộ dữ liệu này có thể cung cấp thông tin quan trọng về giá cả và giao dịch bất động sản trong khu vực và thời gian cụ thể.
library(readxl)
## Warning: package 'readxl' was built under R version 4.2.3
data <- read_excel("C:\\Users\\ACER\\OneDrive\\Máy tính\\Data.xlsx")
str(data)
## tibble [105,653 × 14] (S3: tbl_df/tbl/data.frame)
## $ Serial Number : num [1:105653] 2020177 2020225 2020348 2020090 200500 ...
## $ List Year : num [1:105653] 2020 2020 2020 2020 2020 2020 2020 2020 2020 2020 ...
## $ Date Recorded : POSIXct[1:105653], format: "2021-04-14" "2021-05-26" ...
## $ Town : chr [1:105653] "Ansonia" "Ansonia" "Ansonia" "Ansonia" ...
## $ Address : chr [1:105653] "323 BEAVER ST" "152 JACKSON ST" "230 WAKELEE AVE" "57 PLATT ST" ...
## $ Assessed Value : num [1:105653] 133000 110500 150500 127400 217640 ...
## $ Sale Amount : num [1:105653] 248400 239900 325000 202500 400000 ...
## $ Sales Ratio : num [1:105653] 0.535 0.461 0.463 0.629 0.544 ...
## $ Property Type : chr [1:105653] "Residential" "Residential" "Commercial" "Residential" ...
## $ Residential Type: chr [1:105653] "Single Family" "Three Family" NA "Two Family" ...
## $ Non Use Code : chr [1:105653] NA NA NA NA ...
## $ Assessor Remarks: chr [1:105653] NA NA NA NA ...
## $ OPM remarks : chr [1:105653] NA NA NA NA ...
## $ Location : chr [1:105653] "POINT (-73.06822 41.35014)" NA NA NA ...
# Tính giá trị trung bình và độ lệch chuẩn của giá bán và đánh giá tài sản
mean_sales_price <- mean(data$`Sale Amount`)
median_sales_prices <- median(data$`Sale Amount`)
sd_sales_price <- sd(data$`Sale Amount`)
# Đếm số lượng giao dịch bất động sản của từng loại tài sản
count_property_type <- table(data$`Property Type`)
count_property_type
##
## Apartments Commercial Condo Industrial Public Utility
## 486 1981 344 228 5
## Residential Single Family Two Family Vacant Land
## 60728 1 7 3163
Giá trị trung bình của giá bán là 472,047 có thể cho thấy điều sau:
Trung bình giá bán: Giá trị trung bình của giá bán là 472,047, điều này có thể đại diện cho giá trung bình của tất cả các giao dịch bất động sản trong bộ dữ liệu. Nó cung cấp thông tin về mức giá trung bình mà người mua đã chi trả cho bất động sản.
Phân phối giá bán: trung bình(472047) xa giá trị trung vị (238000), điều này có thể cho thấy phân phối giá bán không đồng đều,có sự biến động lớn trong giá bán,đã có xuất hiện các giao dịch bất thường.
Đánh giá giá bán hiện tại: Giá trung bình cao so với các năm trước đó và so với giá trị của bất động sản tại khu vực tương tự, điều này có thể cho thấy sự tăng giá mạnh của thị trường bất động sản.
Từ đó có thể cho rằng bất động sản có Tiềm năng đầu tư
# Trực quan hóa số lượng giao dịch bất động sản của từng loại tài sản bằng biểu đồ cột
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.2.3
ggplot(data, aes(x = data$`Property Type`)) +
geom_bar() +
labs(title = "Số lượng giao dịch bất động sản theo loại tài sản",
x = "Loại tài sản",
y = "Số lượng")
## Warning: Use of `` data$`Property Type` `` is discouraged.
## ℹ Use `Property Type` instead.
Biểu đồ trực quan hóa số lượng giao dịch bất động sản cùng từng loại tài
sản cho thấy rằng
Có sự đa dạng về loại tài sản: Biểu đồ cột cho ta thấy và dễ dàng so sánh số lượng giao dịch của từng loại tài sản. Biểu đồ có nhiều cột cho thấy có nhiều loại tài sản khác nhau, điều này cho thấy rằng thị trường bất động sản đang có sự đa dạng về các loại tài sản được giao dịch.
Phổ biến của loại tài sản: Residential là tài sản có số lượng giao dịch cao nhất ( gần 60000) (cột có chiều cao cao nhất), điều này cho thấy rằng những loại tài sản này phổ biến hơn so với các loại khác.
Đánh giá tốc độ giao dịch: Ta thấy có cột Residential và cột NA ( tài sản khác) , điều này cho thấy rằng có sự chênh lệch về tốc độ giao dịch giữa các loại tài sản.
Phân loại tài sản quan trọng: Biểu đồ cột có thể giúp ta xác định các loại tài sản quan trọng (nhiều giao dịch) và không quan trọng (ít giao dịch), từ đó đưa ra các quyết định liên quan đến đầu tư hoặc phân loại tài sản.
# Vẽ biểu đồ phân tán để kiểm tra mối quan hệ giữa giá bán và đánh giá tài sản
ggplot(data, aes(x = data$`Sale Amount`, y = data$`Property Type`)) +
geom_point() +
labs(title = "Mối quan hệ giữa giá bán và đánh giá tài sản",
x = "Giá bán",
y = "Đánh giá tài sản")
## Warning: Use of `` data$`Sale Amount` `` is discouraged.
## ℹ Use `Sale Amount` instead.
## Warning: Use of `` data$`Property Type` `` is discouraged.
## ℹ Use `Property Type` instead.