1 Nhập dữ liệu

library(readxl)
data <- read_excel("C:/For_EDA_dataset 1.xlsx")
## Warning: Expecting numeric in G3081 / R3081C7: got a date
## New names:
## • `` -> `...1`
str(data)
## tibble [153,430 × 15] (S3: tbl_df/tbl/data.frame)
##  $ ...1         : num [1:153430] 0 1 2 3 4 5 6 7 8 9 ...
##  $ property_type: chr [1:153430] "Flat" "Flat" "House" "House" ...
##  $ price        : num [1:153430] 10000000 6900000 16500000 43500000 7000000 34500000 27000000 7800000 50000000 40000000 ...
##  $ location     : chr [1:153430] "G-10" "E-11" "G-15" "Bani Gala" ...
##  $ city         : chr [1:153430] "Islamabad" "Islamabad" "Islamabad" "Islamabad" ...
##  $ province_name: chr [1:153430] "Islamabad Capital" "Islamabad Capital" "Islamabad Capital" "Islamabad Capital" ...
##  $ latitude     : num [1:153430] 3.37e+06 3.37e+07 3.36e+16 3.37e+13 3.35e+07 ...
##  $ longitude    : num [1:153430] 7.30e+06 7.30e+07 7.29e+07 7.32e+12 7.33e+07 ...
##  $ baths        : num [1:153430] 2 3 6 4 3 8 8 2 7 5 ...
##  $ purpose      : chr [1:153430] "For Sale" "For Sale" "For Sale" "For Sale" ...
##  $ bedrooms     : num [1:153430] 2 3 5 4 3 8 8 2 7 5 ...
##  $ date_added   : POSIXct[1:153430], format: "2019-02-04" "2019-05-04" ...
##  $ agency       : chr [1:153430] "Self" "Self" "Self" "Self" ...
##  $ agent        : chr [1:153430] "Self" "Self" "Self" "Self" ...
##  $ Area_in_Marla: num [1:153430] 4 5.6 8 40 8 32 20 6.2 20 20 ...

Tập dữ liệu này ban đầu được zameen.com thu thập dưới dạng dữ iệu giá nhà ở Pakistan và đã được sử dụng một số kỹ thuật làm sạch dữ liệu để cung cấp tập dữ liệu đặc biệt cho Thành phố Islamabad

Mô tả dữ liệu: Bộ dữ liệu ta lấy được gồm có 153430 quan sát và 15 biến:

Property type: là các loại tài sản. Trong phần này, chúng ta có 6 loại khác nhau: House, FarmHouse, Upper Portion, Lower Portion, Flat, Room

Price: là giá của các loại tài sản

Baths: số phòng tắm

Purpose: mục đích của căn hộ

Bedrooms: số phòng ngủ

Area in Marla: khu vực ở Marla

Location: về các loại vị trí khác nhau trong mỗi thành phố.

City: thành phố. Trong bộ dữ liệu này có 5 thành phố:Lahore, Karachi, Faisalabad, Rawalpindi, Islamabad

Province_name: tên tỉnh

Latitude: chiều rộng của căn nhà

Longitde: Chiều dài của căn nhà

Date_added: Ngày được thêm vào

Agency: hãng

Agent: đại lý

Biến số thứ tự

2 Thống kê mô tả biến Purpose

  • Bảng tần số
table(data$purpose)
## 
## For Rent For Sale 
##    43183   110247
  • Bảng tần suất
table(data$purpose)/sum(table(data$purpose))
## 
##  For Rent  For Sale 
## 0.2814508 0.7185492

Dựa vào kết quả của bảng tần số và bảng tần suất, ta thấy trong 153430 căn hộ thì có 43183 căn hộ cho thuê chiếm 28,15% và có 110247 căn hộ rao bán chiếm 71,85%.

  • Biểu đồ
library(ggplot2)
ggplot(data,aes(purpose)) + geom_bar(color ="black", fill = "pink") + ylab("Số căn hộ") + xlab("Mục đích của căn hộ")

3 Ước lượng cho tỷ lệ

Ước lượng sự chênh lệch về tỷ lệ giá của căn hộ lớn hơn 500 triệu giữa mục đích cho thuê và rao bán

Giả thuyết:

\(H_{0}\): không có sự khác biệt đáng kể trong tỷ lệ giữa cho thuê và rao bán về giá của căn hộ lơn hơn 500 triệu.

\(H_{1}\): có sự khác biệt đáng kể trong tỷ lệ giữa cho thuê và rao bán về giá của căn hộ lơn hơn 500 triệu.

rent <- data[data$purpose == 'For Rent',]
sale <- data[data$purpose == 'For Sale',]

prc1 <- rent[rent$price > 500000000,]
prc2 <- sale[sale$price > 500000000,]

a <- c(nrow(rent), nrow(sale))
b <- c(nrow(prc1), nrow(prc2))

prop.test(b,a)
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  b out of a
## X-squared = 23.314, df = 1, p-value = 1.376e-06
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.0007286257 -0.0004142626
## sample estimates:
##       prop 1       prop 2 
## 0.0000000000 0.0005714441

P_value = 1.376e-06 < 0, bác bỏ giả thuyết \(H_{0}\). Nghĩ là chưa đủ cơ sở để chứng minh rằng có sự khác biệt đáng kể trong tỷ lệ giữa cho thuê và rao bán về giá của căn hộ lơn hơn 500 triệu.

Khoảng tin cậy 95% cho chênh lệch tỷ lệ nằm trong khoảng từ -0.000729 đến -0.000414.