library(readxl)
data <- read_excel("C:/For_EDA_dataset 1.xlsx")
## Warning: Expecting numeric in G3081 / R3081C7: got a date
## New names:
## • `` -> `...1`
str(data)
## tibble [153,430 × 15] (S3: tbl_df/tbl/data.frame)
## $ ...1 : num [1:153430] 0 1 2 3 4 5 6 7 8 9 ...
## $ property_type: chr [1:153430] "Flat" "Flat" "House" "House" ...
## $ price : num [1:153430] 10000000 6900000 16500000 43500000 7000000 34500000 27000000 7800000 50000000 40000000 ...
## $ location : chr [1:153430] "G-10" "E-11" "G-15" "Bani Gala" ...
## $ city : chr [1:153430] "Islamabad" "Islamabad" "Islamabad" "Islamabad" ...
## $ province_name: chr [1:153430] "Islamabad Capital" "Islamabad Capital" "Islamabad Capital" "Islamabad Capital" ...
## $ latitude : num [1:153430] 3.37e+06 3.37e+07 3.36e+16 3.37e+13 3.35e+07 ...
## $ longitude : num [1:153430] 7.30e+06 7.30e+07 7.29e+07 7.32e+12 7.33e+07 ...
## $ baths : num [1:153430] 2 3 6 4 3 8 8 2 7 5 ...
## $ purpose : chr [1:153430] "For Sale" "For Sale" "For Sale" "For Sale" ...
## $ bedrooms : num [1:153430] 2 3 5 4 3 8 8 2 7 5 ...
## $ date_added : POSIXct[1:153430], format: "2019-02-04" "2019-05-04" ...
## $ agency : chr [1:153430] "Self" "Self" "Self" "Self" ...
## $ agent : chr [1:153430] "Self" "Self" "Self" "Self" ...
## $ Area_in_Marla: num [1:153430] 4 5.6 8 40 8 32 20 6.2 20 20 ...
Tập dữ liệu này ban đầu được zameen.com thu thập dưới dạng dữ iệu giá nhà ở Pakistan và đã được sử dụng một số kỹ thuật làm sạch dữ liệu để cung cấp tập dữ liệu đặc biệt cho Thành phố Islamabad
Mô tả dữ liệu: Bộ dữ liệu ta lấy được gồm có 153430 quan sát và 15 biến:
Property type: là các loại tài sản. Trong phần này, chúng ta có 6 loại khác nhau: House, FarmHouse, Upper Portion, Lower Portion, Flat, Room
Price: là giá của các loại tài sản
Baths: số phòng tắm
Purpose: mục đích của căn hộ
Bedrooms: số phòng ngủ
Area in Marla: khu vực ở Marla
Location: về các loại vị trí khác nhau trong mỗi thành phố.
City: thành phố. Trong bộ dữ liệu này có 5 thành phố:Lahore, Karachi, Faisalabad, Rawalpindi, Islamabad
Province_name: tên tỉnh
Latitude: chiều rộng của căn nhà
Longitde: Chiều dài của căn nhà
Date_added: Ngày được thêm vào
Agency: hãng
Agent: đại lý
Biến số thứ tự
table(data$purpose)
##
## For Rent For Sale
## 43183 110247
table(data$purpose)/sum(table(data$purpose))
##
## For Rent For Sale
## 0.2814508 0.7185492
Dựa vào kết quả của bảng tần số và bảng tần suất, ta thấy trong 153430 căn hộ thì có 43183 căn hộ cho thuê chiếm 28,15% và có 110247 căn hộ rao bán chiếm 71,85%.
library(ggplot2)
ggplot(data,aes(purpose)) + geom_bar(color ="black", fill = "pink") + ylab("Số căn hộ") + xlab("Mục đích của căn hộ")
Ước lượng sự chênh lệch về tỷ lệ giá của căn hộ lớn hơn 500 triệu giữa mục đích cho thuê và rao bán
Giả thuyết:
\(H_{0}\): không có sự khác biệt đáng kể trong tỷ lệ giữa cho thuê và rao bán về giá của căn hộ lơn hơn 500 triệu.
\(H_{1}\): có sự khác biệt đáng kể trong tỷ lệ giữa cho thuê và rao bán về giá của căn hộ lơn hơn 500 triệu.
rent <- data[data$purpose == 'For Rent',]
sale <- data[data$purpose == 'For Sale',]
prc1 <- rent[rent$price > 500000000,]
prc2 <- sale[sale$price > 500000000,]
a <- c(nrow(rent), nrow(sale))
b <- c(nrow(prc1), nrow(prc2))
prop.test(b,a)
##
## 2-sample test for equality of proportions with continuity correction
##
## data: b out of a
## X-squared = 23.314, df = 1, p-value = 1.376e-06
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.0007286257 -0.0004142626
## sample estimates:
## prop 1 prop 2
## 0.0000000000 0.0005714441
P_value = 1.376e-06 < 0, bác bỏ giả thuyết \(H_{0}\). Nghĩ là chưa đủ cơ sở để chứng minh rằng có sự khác biệt đáng kể trong tỷ lệ giữa cho thuê và rao bán về giá của căn hộ lơn hơn 500 triệu.
Khoảng tin cậy 95% cho chênh lệch tỷ lệ nằm trong khoảng từ -0.000729 đến -0.000414.