library("tidyverse")
library("DT")
library("ggplot2")
library("scales")
library("rvest")
library("netstat")
library("stringr")
library("epitools")
library("caret")
library("DescTools")
ĐỀ TÀI: PHÂN TÍCH CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN GIÁ BÁN CỦA NGÔI NHÀ
Tên thành viên: Nguyễn Minh Khang - 2121011757
Lời nói đầu tiên tôi xin gửi lời cảm ơn đến Trường Đại học Tài chính - Marketing, đặc biệt là các thầy cô khoa Kinh tế - Luật đã đưa học phần Phân tích dữ liệu định tính vào chương trình đào tạo để tôi có kiến thức mới để chuẩn bị hành trang sau này. Bên cạnh đó, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất khi được giảng viên hướng dẫn là thầy ThS.Trần Mạnh Tường đã chỉ dẫn hỗ trợ để tôi có thể hoàn thành bài kết thúc học phần được chỉnh chu nhất.Thầy đã giúp tôi tích lũy được thêm nhiều kiến thức liên quan đến môn học. Tuy nhiên, trong quá trình học tập cũng như là trong quá trình làm bài tiểu luận khó tránh khỏi những thiếu sót rất mong thầy bỏ qua. Tôi rất mong nhận được những ý kiến đóng góp của thầy để bản thân có thể học hỏi thêm nhiều kinh nghiệm và hoàn thành tốt hơn trong những bài cáo sắp tới
Tôi xin chân thành cảm ơn!
Trong thị trường bất động sản, việc hiểu rõ được các yếu tố ảnh hưởng đến giá của từng ngôi nhà là yếu tố quan trọng đối với các nhà hoạch định chính sách, nhà đầu tư và cả người mua nhà. Giá nhà không chỉ phản ánh giá trị của bất động sản mà còn chịu tác động bởi nhiều yếu tố như diện tích, vị trí, các tiện nghi và môi trường xung quanh của ngôi nhà đó. Nghiên cứu giá nhà tại một thời điểm cụ thể giúp hiểu rõ hơn về xu hướng thị trường. Trong bối cảnh đô thị hóa nhanh chóng, dân số tăng cao và nhu cầu nhà ở ngày càng lớn, việc xác định các yếu tố ảnh hưởng đến giá bán nhà trở nên vô cùng quan trọng.
Trong những năng gần đây, thị trường bất động sản chứng kiến nhiều biến động về giá cả, gây khó khăn cho cả người mua và người bán. Đối với người mua, việc đánh giá đúng giá cả của một ngôi nhà giúp họ đưa ra quyết định hợp lý, tránh bị thiệt thòi khi mua nhà với giá quá cao so với giá bán thực. Đối với người bán, việc định giá chính xác giúp họ không bỏ lỡ cơ hội bán nhà với giá tốt hoặc không bị ép giá. Các nhà đầu tư bất động sản cần có cái nhìn tổng quan về thị trường và các yếu tố ảnh hưởng để đưa ra các chiến lược đầu tư hiệu quả. Chính phủ và các nhà hoạch định chính sách cũng cần hiểu rõ động lực của thị trường bất động sản để phát triển các chính sách phù hợp, điều tiết thị trường và hỗ trợ người dân trong việc tiếp cận nhà ở. Việc hiểu rõ và dự đoán được các biến động giá cả trong thị trường này không chỉ giúp cho các bên tham gia thị trường đưa ra các quyết định sáng suốt mà còn hỗ trợ cho các nhà hoạch định chính sách trong việc ổn định và phát triển nền kinh tế. Đặc biệt, giá bán của ngôi nhà là một trong những yếu tố chính ảnh hưởng đến quyết định mua bán và đầu tư trong lĩnh vực bất động sản.
Mục tiêu của nghiên cứu này là phân tích và xác định các yếu tố ảnh hưởng đến giá bán nhà tại Windsor, Canada, trong giai đoạn từ tháng 7 đến tháng 9 năm 1987, sử dụng dữ liệu từ bộ dữ liệu “HousePrices” của gói AER.
Đối tượng nghiên cứu: Các yếu tố ảnh hưởng đến giá bán của các ngôi nhà.
Phạm vi nghiên cứu: 546 ngôi nhà ở thành phố Windsor, Canada trong tháng 7,8,9 năm 1987.
Phương pháp xử lý số liệu bằng thống kê toán học: Để nắm vững thông tin và số liệu liên quan đến thị trường bất động sản, tác giả sẽ tiến hành một quá trình phân tích số liệu bằng phương pháp thống kê toán học. Các thông số liên quan đến tần suất, phân bố, độ tương quan và độ tương tác giữa các biến sẽ được tính toán. Phần mềm R - một công cụ mạnh mẽ và phổ biến trong lĩnh vực thống kê và xử lý dữ liệu - sẽ hỗ trợ quá trình này. Việc sử dụng phần mềm R sẽ đảm bảo tính chính xác và đáng tin cậy trong việc phân tích số liệu.
PHẦN MỞ ĐẦU
Chương 1 Tổng quan lý thuyết
Chương 2 Phương pháp nghiên cứu
Chương 3 Thống kê mổ tả các biến
Chương 4 Phân tích dữ liệu và kết quả nghiên cứu
Thị trường bất động sản là lĩnh vực rộng lớn liên quan đến nhiều ngành, nhiều lĩnh vực như đất đai, xây dựng, kiến trúc, môi trường, thuế, giao dịch đảm bảo,… Bên cạnh đó, bất động sản là một loại hàng hóa có tính đặc thù kinh doanh loại hình này sẽ tác động đến hành vi kinh doanh, đầu tư, tái đầu tư, tài chính, tiền tệ, đầu cơ, quỹ dự trữ, dự phòng,… Bất động sản có quan hệ mật thiết tới xây dựng, quản lí nhà nước về đất đai, quy hoạch và kế hoạch sử dụng đất. Thị trường bất động sản là một phần quan trọng của nền kinh tế, nơi diễn ra các mối quan hệ của con người về giao dịch quyền sử dụng đất, tài sản trên đất tại một khu vực địa lí nhất định, trong một khoảng thời gian cụ thể.
Giá nhà là một trong những yếu tố quan trọng nhất trong thị trường bất động sản, ảnh hưởng đến cả người mua và người bán. Giá nhà được xác định bởi nhiều yếu tố, bao gồm:
Sự khác biệt giữa hai tỷ lệ \(\pi_1\) và \(\pi_2\) được đánh giá qua sai số tuyệt đối (\(\pi_1 - \pi_2\)) chỉ dựa vào khoảng cách giữa hai tỷ lệ này và bỏ qua độ lớn và ý nghĩa của chúng, nghĩa là khoảng cách như nhau thì đánh giá sai lệch như nhau.
Giả sử \(\pi_1\) và \(\pi_2\) là xác suất thành công của hai nhóm thì rủi ro tương đối giữa hai nhím này là tỷ lệ xác suất thành công của hai nhóm: \(\frac{\pi_1}{\pi_2}\)
Nhận xét:
Rủi ro tương đối là không âm.
Rủi ro tương đối bằng 1 khi và chỉ khi biến đáp ứng độc lập theo nhóm.
Các tỷ lệ tổng thể \(\pi_1\) và \(\pi_2\) là chưa biết, ta nhận được các tỷ lệ mẫu tương ứng là \(f_1\) và \(f_2\). Khi đó, ta dùng rủi ro tương đối mẫu \(\frac{f_1}{f_2}\) để xấp xỉ cho rủi ro tương đối \(\frac{\pi_1}{\pi_2}\) trên tổng thể.
Công thức ước lượng khoảng tin cậy cho phân phối mẫu rủi ro tương đối thông qua ước lượng khoảng tin cậy cho \(log(\frac{\pi_1}{\pi_2})\) là:
\[(log(\frac{f_1}{f_2}) - z(\frac{\alpha}{2})\sqrt{\frac{1 - f_1}{n_1 + f_1} + \frac{1 - f_2}{n_2 + f_2}}, log(\frac{f_1}{f_2}) + z(\frac{\alpha}{2})\sqrt{\frac{1 - f_1}{n_1 + f_1} + \frac{1 - f_2}{n_2 + f_2}}\]
Tỷ lệ cược (Odds) là tỷ lệ giữa khả năng thành công và khả năng không thành công trong cùng một điều kiện tác động của biến giải thích, ký hiệu \(odds_i\):
\[odds_i = \frac{\pi_i}{1 - \pi_i}\]
Tỷ lệ chênh (Odds Ratio) của hàng 1 và hàng 2, được ký hiệu là \(\theta\), là tỷ số giữa tỷ lệ cược của thành công ở hàng 1 và tỷ lệ cược của thành công ở hàng 2:
\[\theta = \frac{odds_1}{odds_2} = \frac{\pi_1(1 - \pi_2)}{\pi_2(1 - \pi_1)}\]
\(logit(π) = log (π/1-π) = β_0+ β_1X_1+ β_2X_2+...+ B_kX_k\)
Với π là xác suất để biến phụ thuộc nhận giá trị “thành công”. Đối với hàm glm phạm trù thứ hai của biến nhị phân thể hiện cho “thành công” (chúng ta sử dụng hàm levels() để kiểm tra thứ tự của các phạm trù của một biến định tính.
Hồi quy Probit hay còn được gọi là mô hình Probit, được sử dụng để ước lượng mô hình có biến phụ thuộc dạng nhị phân. Trong hồi quy Probit, xem hàm xác suất \(\pi(x)\) hoặc $ 1-(x)$ là hàm phân phối xác suất của một biến ngẫu nhiên X có phân phối chuẩn tức là xác suất thành công có dạng
\[\pi(x)=\phi(\alpha+\beta(x))\]
Trong đó : \[\phi(x)=(\frac1{\sqrt2\phi}\int_\infty^x \mathrm{e}^{-1/2}\,t^2\]
Kí hiệu:
\[Probit(\pi(x))=\phi^-1(\pi(x))\]
Mô hình Probit được viết dưới dạng
\[Probit(\pi(x))=\alpha + betax\]
Để khắc phục một số hạn chế của LPM, người ta đề xuất một hàm liên kết mà nó đồng biến với xác suất \(\pi\) và giá trị biến thiên của nó là tùy ý đó là \(log(\frac{\pi(x)}{1 - \pi(x)})\), được gọi là hàm logistic hay logit(\(\pi\)).
Mô hình hồi quy logit:
\[log(\frac{\pi(x)}{1 - \pi(x)}) = \beta_0 + \beta_1.x_1 + \beta_2.x_2 + ... +\beta_m.x_m\]
Trong đó \(\beta_0, \beta_1,..., \beta_m\) là hệ số hồi quy.
Để đánh giá các mô hình hồi cổ điển chúng ta thường dựa vào hệ số xác định mô hình \((R^2)\), nhưng đối với mô các mô hình hồi quy tuyến tính tổng quát chúng ta sử dụng các tiêu chí sau:
AIC - Akaike Information Criterion
AIC được đề xuất bởi Akaike Hirotugu, một nhà thống kê học người Nhật. AIC là một tiêu chí được sử dụng một cách phổ biến để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Maximum Likekihood (ML). Một cách chung chung giá trị của AIC càng nhỏ thì mô hình càng tốt. AIC được tính bằng công thức sau: \(AIC= -2ln(L)+2k\) Với L là giá trị cực đại của hàm hợp lý (likelihood function) và k là số tham số của mô hình.
Khi thực hiện việc ước lượng mô hình hồi quy bằng lệnh glm thì chỉ số AIC đã được tính toán và thể hiện trên bảng kết quả ( bằng lệnh summary).
Deviance
Deviance cũng là một tiêu chí rất phổ biến được sử dụng để đánh giá một mô hình hồi quy được ước lượng bởi phương pháp Hợp lý cực đại (ML). Một cách tổng quá, cũng giống như chỉ tiêu AIC, giá trị của Deviance càng nhỏ thì mô hình càng tốt.
Lưu ý: Khi thực hiện việc ước lượng mô hình hồi quy bằng lệnh glm thì chỉ số AIC và Deviance đã được tính toán và thể hiện trên bảng kết quả ( bằng lệnh summary).
Brier Score Là chỉ tiêu dùng để đánh giá mô hình hồi quy logistic, Brier Score được tính như sau: \(B= 1/n \sum_{i=1}^{n}(p_i-o_i)\)
Trong đó: pi,oi lần lượt là giá trị xác suất quan sát được, và giá trị xác suất tính ra từ mô hình.
Bộ dữ liệu “HousePrices” được lấy từ gói AER. Trong bộ dữ trên liên quan đến giá bán của 546 căn nhà ở thành phố Windsor, Canada trong tháng 7,8,9 của năm 1987. Bộ dữ liệu được sử dụng để phân tích các yếu tố ảnh hưởng đến giá bán của ngôi nhà, cho phép các nhà phân tích hiểu rõ hơn về các yếu tố ảnh hưởng đến giá bán của ngôi nhà và xây dựng được các mô hình dự báo.
Dữ liệu trên bao gồm 12 biến: 6 biến định lượng và 6 biến định tính.
6 biến định lượng
Price: Giá bán của ngôi nhà (USD)
Lotsize: Diện tích căn nhà
Bedrooms: Số lượng phòng ngủ
Bathrooms: Số lượng phòng tắm
Stories: Số tầng của ngôi nhà không tính tầng hầm
Garage: Số gara trong nhà
6 biến định tính
Driveway: Ngôi nhà có khu vực riêng để đậu xe không (yes/no)?
Recreation: Nhà có phòng giải trí không (yes/no)?
Fullbase: Nhà có được trang bị tầng hầm hoàn thiện hay không (yes/no)? ( tầng hầm hoàn thiện bao gồm các phòng như phòng tập thể dục, trò chơi điện tử, …)
Gasheat: Nhà có sử dụng gas để đun nước nóng không (yes/no)?
Aircon: Nhà có máy điều hoà trung tâm không (yes/no)?
Prefer: Nhà có nằm trong khu trung tâm của thành phố không (yes/no)?
nmk <- read.csv("C:/Users/VIP/Downloads/HousePrices.csv")
datatable(nmk)
Mã hóa biến định lượng Price thành biến định tính. Nếu giá bán nhà nhỏ hơn hoặc bằng 100000 USD ta quy ước là 0. Nếu giá bán nhà lớn hơn 100000 USD ta quy ước là 1.
Pmahoa<-subset(nmk, price < 190000)
dim(Pmahoa)
## [1] 545 13
Pmahoa$price[Pmahoa$price <= 100000] <- 0
Pmahoa$price[Pmahoa$price > 100000] <- 1
datatable(Pmahoa)
Với mục đích phân tích các yếu tố ảnh hưởng đến giá bán của ngôi nhà, sử dụng biến định tính làm biến phụ thuộc:
Price: Giá bán của ngôi nhà
Biến phụ thuộc trong nghiên cứu này là biến giá nhà (Price), một trong những yếu tố quan trọng trong lĩnh vực bất động sản, phản ánh giá trị mà người mua sẵn sàng trả để sở hữu được một ngôi nhà. Giá nhà chịu ảnh hưởng bởi nhiều yếu tố như diện tích của ngôi nhà, số phòng ngủ, phòng tắm và các tiện nghi khác như ngôi nhà có tầng hầm đã được hoàn thiện hay chưa, vị trí ngôi nhà có nằm ở vị trí trung tâm hay không,… Diện tích lớn và nhiều tiện nghi thường dẫn đến giá nhà cao hơn. vị trí ngôi nhà là yếu tố quan trọng nhất, với các khu vực có cơ sở hạ tầng tốt, an ninh và gần trung tâm thường dẫn đến giá nhà cao hơn. Trong bộ dữ liệu HousePrices, biến Price là một biến quan trọng vì nó ảnh hưởng nhiều đến nhà đầu tư, người mua nhà và nhà hoạch định chính sách. Việc có mặt của biến này giúp nhà đầu tư đưa ra quyết định thông minh, tối ưu hóa lợi nhuận và phát triển bền vững thị trường bất động sản.
summary(Pmahoa)
## rownames price lotsize bedrooms
## Min. : 1.0 Min. :0.0000 Min. : 1650 Min. :1.000
## 1st Qu.:137.0 1st Qu.:0.0000 1st Qu.: 3600 1st Qu.:2.000
## Median :273.0 Median :0.0000 Median : 4600 Median :3.000
## Mean :273.3 Mean :0.1156 Mean : 5146 Mean :2.963
## 3rd Qu.:410.0 3rd Qu.:0.0000 3rd Qu.: 6360 3rd Qu.:3.000
## Max. :546.0 Max. :1.0000 Max. :16200 Max. :6.000
## bathrooms stories driveway recreation
## Min. :1.000 Min. :1.000 Length:545 Length:545
## 1st Qu.:1.000 1st Qu.:1.000 Class :character Class :character
## Median :1.000 Median :2.000 Mode :character Mode :character
## Mean :1.284 Mean :1.806
## 3rd Qu.:2.000 3rd Qu.:2.000
## Max. :4.000 Max. :4.000
## fullbase gasheat aircon garage
## Length:545 Length:545 Length:545 Min. :0.0000
## Class :character Class :character Class :character 1st Qu.:0.0000
## Mode :character Mode :character Mode :character Median :0.0000
## Mean :0.6899
## 3rd Qu.:1.0000
## Max. :3.0000
## prefer
## Length:545
## Class :character
## Mode :character
##
##
##
Biến Price: Giá bán của ngôi nhà
table(Pmahoa$price)
##
## 0 1
## 482 63
table(Pmahoa$price)/sum(table(Pmahoa$price))
##
## 0 1
## 0.8844037 0.1155963
Pmahoa |> ggplot(aes( x = price, y = after_stat(count))) +
geom_bar(fill = 'blue') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 1.5) +
theme_classic() +
labs(x = 'Giá bán', y = 'Số ngôi nhà')
Nhận xét: Kết quả cho thấy trong 546 ngôi nhà có 482 ngôi nhà có giá bán dưới 100000 USD chiếm 88% số ngôi nhà trong cuộc khảo sát và 63 ngôi nhà có mức giá bán trên 100000 USD chiếm 12% số ngôi nhà trong cuộc khảo sát.
Biến Bedrooms: Số phòng ngủ trong ngôi nhà.
table(Pmahoa$bedrooms)
##
## 1 2 3 4 5 6
## 2 136 301 94 10 2
table(Pmahoa$bedrooms)/sum(table(Pmahoa$bedrooms))*100
##
## 1 2 3 4 5 6
## 0.3669725 24.9541284 55.2293578 17.2477064 1.8348624 0.3669725
Pmahoa |> ggplot( aes( x = bedrooms, y= after_stat(count))) + geom_bar(fill='orange') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('Số phòng ngủ') + ylab('Số ngôi nhà')
Nhận xét: Kết quả trên cho thấy
Những ngôi nhà có 3 phòng ngủ chiếm tỷ lệ cao nhất 55,23% (có 301 ngôi nhà)
Những ngôi nhà có 1 phòng ngủ và nhà có 6 phòng ngủ chiếm tỉ lệ thấp nhất 0,37% (có 2 ngôi nhà)
Những ngôi nhà có 2 phòng ngủ chiếm tỷ lệ 24,91% (có 136 ngôi nhà)
Những ngôi nhà có 4 phòng ngủ chiếm tỷ lệ 17,4% (có 94 ngôi nhà)
Những ngôi nhà có 5 phòng ngủ chiếm tỷ lệ 1,83% (có 10 ngôi nhà)
Biến Driveway: Nhà có khu vực riêng để đậu xe không?
table(Pmahoa$driveway)
##
## no yes
## 77 468
table(Pmahoa$driveway)/sum(table(Pmahoa$driveway))
##
## no yes
## 0.1412844 0.8587156
Pmahoa |> ggplot(aes( x = driveway, y = after_stat(count))) +
geom_bar(fill = 'Salmon') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 1.5) +
theme_classic() +
labs(x = 'Chỗ đậu xe', y = 'Số ngôi nhà')
Nhận xét: Kết quả trên cho thấy trong tổng số 546 ngôi nhà thì có 77 ngôi nhà trong cuộc khảo sát không có khu vực riêng để đậu xe (chiếm 14%) và có 468 ngôi nhà trong cuộc khảo sát có nhà có khu vực riêng để đậu xe (chiếm 86%).
Biến Prefer: Nhà có nằm trong khu trung tâm của thành phố không?
table(Pmahoa$prefer)
##
## no yes
## 418 127
table(Pmahoa$prefer)/sum(table(Pmahoa$prefer))
##
## no yes
## 0.7669725 0.2330275
Pmahoa |> ggplot(aes( x = prefer, y = after_stat(count))) +
geom_bar(fill = 'green') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 1.5) +
theme_classic() +
labs(x = 'Vị trí', y = 'Số ngôi nhà')
Nhận xét: Kết quả trên cho thấy trong tổng số 545 ngôi nhà thì có 127 ngôi nhà trong cuộc khảo sát có vị trí ngôi nhà nằm trong khu vực trung tâm thành phố (chiếm 23%) và có 418 ngôi nhà trong cuộc khảo sát có vị trí nằm cách xa trung tâm thành phố (chiếm 77%).
Biến Recreation: Nhà có phòng giải trí không?
table(Pmahoa$recreation)
##
## no yes
## 448 97
table(Pmahoa$recreation)/sum(table(Pmahoa$recreation))
##
## no yes
## 0.8220183 0.1779817
Pmahoa |> ggplot(aes( x = recreation, y = after_stat(count))) +
geom_bar(fill = 'brown') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 1.5) +
theme_classic() +
labs(x = 'Phòng giải trí', y = 'Số ngôi nhà')
thht <- Pmahoa %>% group_by(recreation) %>% summarise( n=n()) %>% mutate( percent =n/sum(n))
thht |> ggplot(aes(x='', y=percent, fill= recreation)) + geom_bar(stat='identity', width = 1) + geom_text(aes(label = paste0(round(percent*100), "%")), position = position_stack(vjust = 0.5))+
coord_polar("y", start = 0) +
scale_fill_manual(values = c("brown", "moccasin"), name = "recreation") +
labs(title = "recreation") +
theme_minimal()
Nhận xét: Kết quả trên cho thấy có 18% số ngôi nhà trong cuộc khảo sát nhà có phòng giải trí và 82% số ngôi nhà trong cuộc khảo sát nhà không có phòng giải trí.
Giải thích: Lập bảng tần số giữa hai biến trên cho chúng ta biết số lượng phòng ngủ thì có mức giá bán như thế nào.
nmk$phongngu <- cut( nmk$bedrooms, breaks = c(0,2,7), labels = c('ít', 'nhiều'))
nmk$gia <- cut( nmk$price, breaks = c(0,70000,191000), labels = c('thấp', 'cao'))
table(nmk$gia)
##
## thấp cao
## 345 201
Tôi chia biến price (giá bán nhà) thành 2 mức giá cao và thấp. Trong cuộc khảo sát có 345 người bán nhà với mức giá thấp và 201 người bán nhà với mức giá cao.
m <- table(nmk$phongngu, factor(nmk$gia, levels=c("cao","thấp")))
addmargins(m)
##
## cao thấp Sum
## ít 11 127 138
## nhiều 190 218 408
## Sum 201 345 546
Nhận xét:
Có 127 ngôi nhà trong cuộc khảo sát có ít phòng ngủ có mức giá bán thấp.
Có 11 ngôi nhà trong cuộc khảo sát có ít phòng ngủ có mức giá bán cao.
Có 218 ngôi nhà trong cuộc khảo sát có nhiều phòng ngủ có mức giá bán thấp.
Có 190 ngôi nhà trong cuộc khảo sát có nhiều phòng ngủ có mức giá bán cao.
nmk |> count(phongngu, gia) |>
group_by(phongngu) |>
mutate(pH = n/sum(n)) |>
ggplot(aes(x = phongngu, y = n, fill = gia)) +
geom_col() +
geom_text(aes(label = percent(pH, accuracy = .01)), position = position_stack(vjust = 0.5), size = 4) +
ylab('Số ngôi nhà') +
xlab('Số phòng ngủ')
Từ kết quả trên cho thấy:
Trong số những ngôi nhà có ít phòng ngủ thì có 7,97% là nhà có mức giá bán cao, 92,03% là nhà có mức giá bán thấp.
Trong số những ngôi nhà có nhiều phòng ngủ thì có 46,57% là nhà có mức giá bán cao, 53,43% là nhà có mức giá bán thấp.
Giải thích: Lập bảng tần số giữa hai biến trên cho chúng ta biết những ngôi nhà có chỗ để xe thì có mức giá bán như thế nào.
mk <- table(Pmahoa$price, Pmahoa$driveway)
addmargins(mk)
##
## no yes Sum
## 0 77 405 482
## 1 0 63 63
## Sum 77 468 545
prop.table(mk)
##
## no yes
## 0 0.1412844 0.7431193
## 1 0.0000000 0.1155963
ggplot(Pmahoa, aes(price, fill = driveway)) + geom_bar(position = position_dodge(width = 0.8), binwidth = 25) + xlab("Giá bán") + ylab("Số ngôi nhà")
## Warning in geom_bar(position = position_dodge(width = 0.8), binwidth = 25):
## Ignoring unknown parameters: `binwidth`
Từ kết quả trên cho thấy:
Những ngôi nhà có mức giá bán dưới 100000 USD thì có 77 ngôi nhà không có chỗ đậu xe (chiếm 14,13%) và có 405 ngôi nhà có chỗ đậu xe (chiếm 74,31%)
Những ngôi nhà có mức giá bán cao hơn 100000 USD thì có 0 ngôi nhà không có chỗ đậu xe (chiếm 0,00%) và có 63 ngôi nhà có chỗ đậu xe (chiếm 11,56%)
Giải thích: Lập bảng tần số giữa hai biến trên cho chúng ta biết những ngôi nhà ở vị trí trung tâm thì có mức giá bán như thế nào.
mk1 <- table(Pmahoa$prefer, factor(Pmahoa$price, levels=c("1","0")))
addmargins(mk1)
##
## 1 0 Sum
## no 39 379 418
## yes 24 103 127
## Sum 63 482 545
prop.table(mk1)
##
## 1 0
## no 0.07155963 0.69541284
## yes 0.04403670 0.18899083
ggplot(Pmahoa, aes(price, fill = prefer)) + geom_bar(position = position_dodge(width = 0.8), binwidth = 25) + xlab("Giá bán") + ylab("Số ngôi nhà")
## Warning in geom_bar(position = position_dodge(width = 0.8), binwidth = 25):
## Ignoring unknown parameters: `binwidth`
Từ kết quả trên cho thấy:
Những ngôi nhà có mức giá bán dưới 100000 USD thì có 379 ngôi nhà cách xa trung tâm thành phố (chiếm 69,5%) và có 103 ngôi nhà có chỗ đậu xe (chiếm 18,9%)
Những ngôi nhà có mức giá bán cao hơn 100000 USD thì có 39 ngôi nhà các xa trung tâm thành phố (chiếm 7,16%) và có 24 ngôi nhà có chỗ đậu xe (chiếm 4,4%)
Giải thích: Lập bảng tần số giữa hai biến trên cho chúng ta biết những ngôi nhà có phòng giải trí thì có mức giá bán như thế nào.
mk2 <- table(Pmahoa$recreation, factor(Pmahoa$price, levels=c("1","0")))
addmargins(mk2)
##
## 1 0 Sum
## no 42 406 448
## yes 21 76 97
## Sum 63 482 545
prop.table(mk2)
##
## 1 0
## no 0.07706422 0.74495413
## yes 0.03853211 0.13944954
ggplot(Pmahoa, aes(price, fill = recreation)) + geom_bar(position = position_dodge(width = 0.8), binwidth = 25) + xlab("Giá bán") + ylab("Số ngôi nhà")
## Warning in geom_bar(position = position_dodge(width = 0.8), binwidth = 25):
## Ignoring unknown parameters: `binwidth`
Từ kết quả trên cho thấy:
Những ngôi nhà có mức giá bán dưới 100000 USD thì có 406 ngôi nhà không có phòng giải trí (chiếm 74,5%) và có 76 ngôi nhà có chỗ đậu xe (chiếm 13,94%)
Những ngôi nhà có mức giá bán cao hơn 100000 USD thì có 42 ngôi nhà không có phòng giải trí (chiếm 7,7%) và có 21 ngôi nhà có phòng giải trí (chiếm 3,85%)
Price: Giá bán của ngôi nhà
Bedrooms: Số lượng phòng ngủ có trong ngôi nhà
RelRisk(m)
## [1] 0.171167
riskratio(m)
## $data
##
## cao thấp Total
## ít 11 127 138
## nhiều 190 218 408
## Total 201 345 546
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## ít 1.0000000 NA NA
## nhiều 0.5805929 0.5237479 0.6436074
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## ít NA NA NA
## nhiều 0 2.243681e-18 4.408231e-16
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét:
Xác suất những ngôi nhà có mức giá bán cao có ít phòng ngủ bằng 0.171167 lần xác suất những ngôi nhà ngôi nhà có mức giá bán cao có nhiều phòng ngủ.
Xác suất những ngôi nhà có mức giá bán thấp có ít phòng ngủ bằng 0.5805929 lần xác suất những ngôi nhà có mức giá bán thấp có nhiều phòng ngủ
OddsRatio(m)
## [1] 0.09937837
Nhận xét: OddsRatio = 0.09937837, cho thấy rằng odds của những ngôi nhà có ít phòng ngủ gấp 0.09937837 lần odds những ngôi nhà có nhiều phòng ngủ. Trong đó Odds là xác suất những ngôi nhà có mức giá bán cao trên những ngôi nhà có mức giá bán thấp.
Price: Giá bán của ngôi nhà
Prefer: Nhà có nằm trong khu vực trung tâm thành phố hay không?
RelRisk(mk1)
## [1] 0.4937201
riskratio(mk1)
## $data
##
## 1 0 Total
## no 39 379 418
## yes 24 103 127
## Total 63 482 545
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## no 1.0000000 NA NA
## yes 0.8944799 0.8179776 0.9781371
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0.0051007 0.006412255 0.003144995
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét: Kết quả trên cho ta thấy
Xác suất những ngôi nhà có mức giá bán cao (Trên 100000 USD) nằm cách xa trung tâm thành phố bằng 0.4937201 lần xác suất những ngôi nhà ngôi nhà có mức giá bán cao có vị trí ở trung tâm thành phố.
Xác suất những ngôi nhà có mức giá bán thấp (Dưới 100000 USD) có vị trí nằm cách xa trung tâm thành phố bằng 0.8944799 lần xác suất những ngôi nhà có mức giá bán thấp có vị trí ở trung tâm thành phố
OddsRatio(mk1)
## [1] 0.4416227
Nhận xét: OddsRatio = 0.4416227, cho thấy rằng odds của những ngôi nhà có vị trí cách xa trung tâm thành phố gấp 0.4416227 lần odds của những ngôi nhà nằm ở vị trí trung tâm thành phố. Trong đó Odds là xác suất những ngôi nhà có mức giá bán cao (Trên 100000 USD) trên những ngôi nhà có mức giá bán thấp (Dưới 100000 USD).
Price: Giá bán của ngôi nhà
Recreation: Nhà có phòng giải trí hay không?
RelRisk(mk2)
## [1] 0.4330357
riskratio(mk2)
## $data
##
## 1 0 Total
## no 42 406 448
## yes 21 76 97
## Total 63 482 545
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## no 1.0000000 NA NA
## yes 0.8645574 0.7754569 0.9638956
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0.001505483 0.001378597 0.0006081908
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét: Kết qảu trên cho ta thấy
Xác suất những ngôi nhà có mức giá bán cao (Trên 100000 USD) không có phòng giải trí bằng 0.4330357 lần xác suất những ngôi nhà ngôi nhà có mức giá bán cao có phòng giải trí.
Xác suất những ngôi nhà có mức giá bán thấp (Dưới 100000 USD) không có phòng giải trí bằng 0.8645574 lần xác suất những ngôi nhà có mức giá bán thấp có có phòng giải trí.
OddsRatio(mk2)
## [1] 0.3743842
Nhận xét: OddsRatio = 0.3743842, cho thấy rằng odds của những ngôi nhà không có phòng giải trí gấp 0.3743842 lần odds của những ngôi nhà có phòng giải trí. Trong đó Odds là xác suất những ngôi nhà có mức giá bán cao (Trên 100000 USD) trên những ngôi nhà có mức giá bán thấp (Dưới 100000 USD).
mkk <- Pmahoa[ Pmahoa$price == '1',]
prop.test( length(mkk$price), length( Pmahoa$price))
##
## 1-sample proportions test with continuity correction
##
## data: length(mkk$price) out of length(Pmahoa$price), null probability 0.5
## X-squared = 320.59, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.09058243 0.14617362
## sample estimates:
## p
## 0.1155963
mkk <- Pmahoa[ Pmahoa$price == '0',]
prop.test( length(mkk$price), length( Pmahoa$price))
##
## 1-sample proportions test with continuity correction
##
## data: length(mkk$price) out of length(Pmahoa$price), null probability 0.5
## X-squared = 320.59, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.8538264 0.9094176
## sample estimates:
## p
## 0.8844037
Nhận xét: Với độ tin cậy 95% ta có tỷ lệ những ngôi nhà có giá bán cao hơn 100000 USD trong cuộc khảo sát nằm trong khoảng từ 9,06% đến 14,61%. Mặc khác, tỷ lệ những ngôi nhà có giá bán thấp hơn 100000 USD trong cuộc khảo sát nằm trong khoảng từ 85,3% đến 90,9%.
bed <- Pmahoa[Pmahoa$bedrooms > 2,]
prop.test( length(bed$bedrooms), length(Pmahoa$bedrooms))
##
## 1-sample proportions test with continuity correction
##
## data: length(bed$bedrooms) out of length(Pmahoa$bedrooms), null probability 0.5
## X-squared = 131.79, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.7076864 0.7823505
## sample estimates:
## p
## 0.746789
Nhận xét: Với độ tin cậy 95% ta có tỷ lệ người bán nhà có nhiều hơn 2 phòng ngủ trong cuộc khảo sát nằm trong khoảng từ 70,77% đến 78,23%.
mkkk <- Pmahoa[Pmahoa$prefer =='yes',]
prop.test( length(mkkk$prefer), length(Pmahoa$prefer))
##
## 1-sample proportions test with continuity correction
##
## data: length(mkkk$prefer) out of length(Pmahoa$prefer), null probability 0.5
## X-squared = 154.31, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.1986153 0.2712730
## sample estimates:
## p
## 0.2330275
mkkk <- Pmahoa[Pmahoa$prefer =='no',]
prop.test( length(mkkk$prefer), length(Pmahoa$prefer))
##
## 1-sample proportions test with continuity correction
##
## data: length(mkkk$prefer) out of length(Pmahoa$prefer), null probability 0.5
## X-squared = 154.31, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.7287270 0.8013847
## sample estimates:
## p
## 0.7669725
Nhận xét: Với độ tin cậy 95% ta có tỷ lệ những ngôi nhà đó nằm trong khu vực trung tâm thành phố trong cuộc khảo sát nằm trong khoảng từ 19,8% đến 27,1%. Mặc khác, tỷ lệ những ngôi nhà không nằm trong khu vực trung tâm thành phố trong cuộc khảo sát từ 72,8% đến 80,13%.
mkkk <- Pmahoa[Pmahoa$driveway == 'yes',]
prop.test( length(mkkk$driveway), length(Pmahoa$driveway))
##
## 1-sample proportions test with continuity correction
##
## data: length(mkkk$driveway) out of length(Pmahoa$driveway), null probability 0.5
## X-squared = 279.08, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.8259674 0.8862859
## sample estimates:
## p
## 0.8587156
Nhận xét: Với độ tin cậy 95% ta có tỷ lệ những ngôi nhà có khu vực đậu xe riêng trong cuộc khảo sát nằm trong khoảng từ 82,6% đến 88,6%.
mkkkk <- Pmahoa[Pmahoa$recreation == 'no',]
prop.test( length(mkkkk$recreation), length(Pmahoa$recreation))
##
## 1-sample proportions test with continuity correction
##
## data: length(mkkkk$recreation) out of length(Pmahoa$recreation), null probability 0.5
## X-squared = 224.77, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.7867101 0.8526908
## sample estimates:
## p
## 0.8220183
mkkkk <- Pmahoa[Pmahoa$recreation == 'yes',]
prop.test( length(mkkkk$recreation), length(Pmahoa$recreation))
##
## 1-sample proportions test with continuity correction
##
## data: length(mkkkk$recreation) out of length(Pmahoa$recreation), null probability 0.5
## X-squared = 224.77, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.1473092 0.2132899
## sample estimates:
## p
## 0.1779817
Nhận xét: Với độ tin cậy 95% ta có tỷ lệ những ngôi nhà có phòng giải trí trong cuộc khảo sát nằm trong khoảng từ 14,73% đến 21,32%. Mặc khác, tỷ lệ những ngôi nhà không có phòng giải trí trong cuộc khảo sát từ 78,67% đến 85,26%.
Price: Giá bán nhà
Bedrooms: Số lượng phòng ngủ có trong ngôi nhà
Giả thuyết:
\(H_0\): Price và Bedrooms độc lập.
\(H_1\): Price và Bedrooms không độc lập.
chisq.test(m)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: m
## X-squared = 64.396, df = 1, p-value = 1.018e-15
Nhận xét: Kết quả cho chúng ta thấy rằng p-value = 1.018e-15 < 0.05. Đây cũng là bằng chứng để ta bác bỏ giả thuyết H0. Vậy với mức ý nghĩa 5%, biến số lượng phòng ngủ và biến giá bán của ngôi nhà không độc lập với nhau
Price: Giá bán nhà
Prefer: Ngôi nhà có nằm trong khu vực trung tâm thành phố hay không?
Giả thuyết:
\(H_0\): Price và Prefer độc lập.
\(H_1\): Price và Prefer không độc lập.
chisq.test(mk1)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: mk1
## X-squared = 7.8106, df = 1, p-value = 0.005194
Nhận xét: Kết quả cho chúng ta thấy rằng p-value = 0.005194 < 0.05. Đây cũng là bằng chứng để ta bác bỏ giả thuyết H0. Vậy với mức ý nghĩa 5%, những ngôi nhà có tầng hầm hay không và giá nhà không độc lập với nhau.
Price: Giá bán nhà
Driveway: Ngôi nhà có khu vực đậu xe riêng hay không?
Giả thuyết:
\(H_0\): Price và Driveway độc lập.
\(H_1\): Price và Driveway không độc lập.
chisq.test(mk)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: mk
## X-squared = 10.44, df = 1, p-value = 0.001233
Nhận xét: Kết quả cho chúng ta thấy rằng p-value = 0.001233 < 0.05. Đây cũng là bằng chứng để ta bác bỏ giả thuyết H0. Vậy với mức ý nghĩa 5%, những ngôi nhà có khu vực đậu xe và giá bán của ngôi nhà không độc lập với nhau.
Price: Giá bán nhà
Recreation: Ngôi nhà có phòng giải trí hay không?
Giả thuyết:
\(H_0\): Price và Recreation độc lập.
\(H_1\): Price và Recreation không độc lập.
chisq.test(mk2)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: mk2
## X-squared = 10.581, df = 1, p-value = 0.001143
Nhận xét: Kết quả cho chúng ta thấy rằng p-value = 0.001143 < 0.05. Đây cũng là bằng chứng để ta bác bỏ giả thuyết H0. Vậy với mức ý nghĩa 5%, những ngôi nhà có phòng giải trí và giá bán của ngôi nhà không độc lập với nhau.
Dạng tổng quát:
\[logit(π)=log(π/(1−π)=β_0+β_1X_1+β_2X_2+⋯+β_kX_k\]
logit <- glm(factor(price, levels =c("0","1")) ~ prefer + bedrooms + recreation , family= binomial( link = 'logit'), data=Pmahoa)
summary(logit)
##
## Call:
## glm(formula = factor(price, levels = c("0", "1")) ~ prefer +
## bedrooms + recreation, family = binomial(link = "logit"),
## data = Pmahoa)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.5542 -0.5304 -0.3789 -0.2358 2.6820
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -5.5108 0.6727 -8.192 2.57e-16 ***
## preferyes 0.7078 0.2997 2.362 0.0182 *
## bedrooms 0.9709 0.1899 5.112 3.19e-07 ***
## recreationyes 0.8011 0.3126 2.562 0.0104 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 390.28 on 544 degrees of freedom
## Residual deviance: 347.49 on 541 degrees of freedom
## AIC: 355.49
##
## Number of Fisher Scoring iterations: 5
Vậy nên mô hình logit được xác định như sau:
\(log(\frac{\pi}{1-\pi}) = -5.5108 + 0.7078preferyes + 0.9709bedrooms + 0.8011recreationyes\)
Giải thích kết quả
Trong trường hợp các yếu tố khác không đổi, giá trị β1=0.7078 cho thấy rằng những ngôi nhà nằm ở trung tâm thành phố có odds cao hơn so với những ngôi nhà ở vị trí cách xa trung tâm thành phố. Odds của vị trí ngôi nhà ở trung tâm thành phố cao hơn 2,029521397 lần những ngôi ở cách xa trung tâm thành phố.
Trong trường hợp các yếu tố khác không đổi, giá trị β2=0.9709 thể hiện với mỗi ngôi nhà có thêm một phòng ngủ thì odds sẽ tăng. Khi số phòng ngủ của ngôi nhà tăng lên 1 phòng thì odds sẽ tăng thêm 2.64032 lần
Trong trường hợp các yếu tố khác không đổi, giá trị β3=0.8011 cho thấy rằng những ngôi nhà có khu giải trí có odds cao hơn những ngôi nhà không có khu giải trí. Odds của những ngôi nhà có khu giải trí cao hơn 2,229 lần so với những ngôi nhà không có khu giải trí
Dạng tổng quát:
\[probit(π)=Φ^-1(π))=β_0+β_1X_1+β_2X_2+⋯+β_kX_k\]
probit <- glm(factor(price, levels =c("0","1")) ~ prefer + bedrooms + recreation , family= binomial( link = 'probit'), data=Pmahoa)
summary(probit)
##
## Call:
## glm(formula = factor(price, levels = c("0", "1")) ~ prefer +
## bedrooms + recreation, family = binomial(link = "probit"),
## data = Pmahoa)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.4756 -0.5343 -0.3766 -0.2066 2.7778
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -3.1194 0.3525 -8.848 < 2e-16 ***
## preferyes 0.3752 0.1636 2.293 0.0218 *
## bedrooms 0.5440 0.1036 5.252 1.51e-07 ***
## recreationyes 0.4456 0.1739 2.563 0.0104 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 390.28 on 544 degrees of freedom
## Residual deviance: 345.94 on 541 degrees of freedom
## AIC: 353.94
##
## Number of Fisher Scoring iterations: 6
Vậy nên mô hình probit được xác định như sau:
\(probit(\pi) = -3.1194 + 0.3752preferyes + 0.5440bedrooms + 0.4456recreationyes\)
Hệ số β1 = 0.3752 có ý nghĩa là trong trường hợp các yếu tố khác không đổi, những ngôi nhà nằm ở trung tâm có xác suất mức giá cao “cao hơn” những ngôi nhà ở xa trung tập thành phố.
Hệ số β2 = 0.5440 có ý nghĩa là trong trường hợp các yếu tố khác không đổi, khi số phòng ngủ tăng lên 1 phòng thì xác suất ngôi nhà đó có mức giá cao tăng lên. Tức là những ngôi nhà có nhiều phòng ngủ có mức giá bán cao hơn những ngôi nhà có ít phòng ngủ
Hệ số β3 = 0.4456 có ý nghĩa là trong trường hợp các yếu tố khác không đổi thì những ngôi nhà có phòng giải trí có xác suất “mức giá cao” cao hơn những ngôi nhà không có phòng giải trí.
Kết quả cho thấy P-value < 0,05 ta bác bỏ giả thuyết \(H_0\) nên mô hình Probit là phù hợp với dữ liệu.
Dạng tổng quát:
\[π(x)=β_0+β_1X_1+β_2X_2+⋯+β_kX_k\]
lpm <- glm(price ~ prefer + bedrooms + recreation, data=Pmahoa)
summary(lpm)
##
## Call:
## glm(formula = price ~ prefer + bedrooms + recreation, data = Pmahoa)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.44170 -0.15522 -0.08604 0.00960 1.00960
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.20089 0.05480 -3.666 0.000271 ***
## preferyes 0.06917 0.03167 2.184 0.029372 *
## bedrooms 0.09564 0.01801 5.312 1.59e-07 ***
## recreationyes 0.09519 0.03502 2.718 0.006780 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 0.09471713)
##
## Null deviance: 55.717 on 544 degrees of freedom
## Residual deviance: 51.242 on 541 degrees of freedom
## AIC: 268.14
##
## Number of Fisher Scoring iterations: 2
Vậy nên mô hình xác suất tuyến tính được xác định như sau:
\(π(x) = -0.20089 +0.06917preferyes + 0.09564bedrooms + 0.09519recreation\)
Hệ số β1 = 0.06917 có ý nghĩa là trong trường hợp các yếu tố khác không đổi, những ngôi nhà nằm ở trung tâm có xác suất mức giá cao “cao hơn” những ngôi nhà ở xa trung tập thành phố 6.97%
Hệ số β2 = 0.09564 có ý nghĩa là trong trường hợp các yếu tố khác không đổi, khi số phòng ngủ tăng lên 1 phòng thì xác suất ngôi nhà đó có mức giá cao tăng lên 9.56%
Hệ số β3 = 0.09519 có ý nghĩa là trong trường hợp các yếu tố khác không đổi thì những ngôi nhà có phòng giải trí có xác suất “mức giá cao” cao hơn những ngôi nhà không có phòng giải trí 9.52%
Ma trận nhầm lẫn của mô hình Logit
predictlogit <- predict.glm(logit, type="response")
predictedlogit <- ifelse(predictlogit > 0.5, "1", "0")
# Tạo confusion matrix để đánh giá hiệu suất
confusionMatrix(table(Predicted = factor(predictedlogit, levels = c("1","0")), Actual = factor(Pmahoa$price, levels = c("1","0"))))
## Confusion Matrix and Statistics
##
## Actual
## Predicted 1 0
## 1 1 3
## 0 62 479
##
## Accuracy : 0.8807
## 95% CI : (0.8505, 0.9067)
## No Information Rate : 0.8844
## P-Value [Acc > NIR] : 0.6369
##
## Kappa : 0.0163
##
## Mcnemar's Test P-Value : 6.291e-13
##
## Sensitivity : 0.015873
## Specificity : 0.993776
## Pos Pred Value : 0.250000
## Neg Pred Value : 0.885397
## Prevalence : 0.115596
## Detection Rate : 0.001835
## Detection Prevalence : 0.007339
## Balanced Accuracy : 0.504824
##
## 'Positive' Class : 1
##
Ma trận nhầm lẫn của mô hình Probit
predictprobit <- predict.glm(probit, type="response")
predictedprobit <- ifelse(predictprobit > 0.5, "1", "0")
# Tạo confusion matrix để đánh giá hiệu suất
confusionMatrix(table(Predicted = factor(predictedprobit, levels = c("1","0")), Actual = factor(Pmahoa$price, levels = c("1","0"))))
## Confusion Matrix and Statistics
##
## Actual
## Predicted 1 0
## 1 1 3
## 0 62 479
##
## Accuracy : 0.8807
## 95% CI : (0.8505, 0.9067)
## No Information Rate : 0.8844
## P-Value [Acc > NIR] : 0.6369
##
## Kappa : 0.0163
##
## Mcnemar's Test P-Value : 6.291e-13
##
## Sensitivity : 0.015873
## Specificity : 0.993776
## Pos Pred Value : 0.250000
## Neg Pred Value : 0.885397
## Prevalence : 0.115596
## Detection Rate : 0.001835
## Detection Prevalence : 0.007339
## Balanced Accuracy : 0.504824
##
## 'Positive' Class : 1
##
Ma trận nhầm lẫn của mô hình lpm
predictlpm <- predict.glm(lpm, type="response")
predictlpm <- ifelse(predictlpm > 0.5, "1", "0")
# Tạo confusion matrix để đánh giá hiệu suất
confusionMatrix(table(Predicted = factor(predictlpm, levels = c("1","0")), Actual = factor(Pmahoa$price, levels = c("1","0"))))
## Confusion Matrix and Statistics
##
## Actual
## Predicted 1 0
## 1 0 0
## 0 63 482
##
## Accuracy : 0.8844
## 95% CI : (0.8545, 0.91)
## No Information Rate : 0.8844
## P-Value [Acc > NIR] : 0.5335
##
## Kappa : 0
##
## Mcnemar's Test P-Value : 5.662e-15
##
## Sensitivity : 0.0000
## Specificity : 1.0000
## Pos Pred Value : NaN
## Neg Pred Value : 0.8844
## Prevalence : 0.1156
## Detection Rate : 0.0000
## Detection Prevalence : 0.0000
## Balanced Accuracy : 0.5000
##
## 'Positive' Class : 1
##
Qua kết quả ma trận nhầm lẫn của ba mô hình logit, probit và clogdog, tôi nhận thấy kết quả của ba mô hình tương đồng với nhau. Đối với mô hình logit và probit, độ nhạy xấp xỉ 1.58%, độ đặc hiệu xấp xỉ 99.37%. Đối với mô hình xác suất tuyến tính, độ nhạy là 0% và độ đặc hiệu là 100%.
AIC(logit)
## [1] 355.4897
AIC(probit)
## [1] 353.9445
AIC(lpm)
## [1] 268.1393
Từ chỉ số AIC của 3 mô hình trên ta thấy mô hình lpm có chỉ số AIC thấp nhất (268.1393). Vì thế đối với tiêu chí đánh giá AIC thì mô hình lpm là phù hợp để xem xét sự tác động của các yếu tố đến biến phụ thuộc Price hơn mô hình logit và probit.
deviance(logit)
## [1] 347.4897
deviance(probit)
## [1] 345.9445
deviance(lpm)
## [1] 51.24197
Từ chỉ số deviance của 3 mô hình trên ta thấy mô hình lpm có chỉ số deviance thấp nhất (51.24197). Vì thế đối với tiêu chí đánh giá devience thì mô hình lpm là phù hợp để xem xét sự tác động của các yếu tố đến biến phụ thuộc Price hơn mô hình logit và probit.
BrierScore(logit)
## [1] 0.09452986
BrierScore(probit)
## [1] 0.09432254
BrierScore(lpm)
## [1] 0.09402196
Từ chỉ số BrierScore của 3 mô hình trên ta thấy mô hình lpm có chỉ số BrierScore thấp nhất (0.09402196). Vì thế đối với tiêu chí đánh giá BrierScore thì mô hình lpm là phù hợp để xem xét sự tác động của các yếu tố đến biến phụ thuộc Price hơn mô hình Logit và Probit.
Thông qua các tiêu chí đánh giá mô hình AIC, Deviance và BrierScore thì mô hình phù hợp nhất để xem xét tác động của các yếu tố Prefer, Bedrooms, Recreation tới biến phụ thuộc Price là mô hình hồi quy LPM
summary(lpm)
##
## Call:
## glm(formula = price ~ prefer + bedrooms + recreation, data = Pmahoa)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -0.44170 -0.15522 -0.08604 0.00960 1.00960
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.20089 0.05480 -3.666 0.000271 ***
## preferyes 0.06917 0.03167 2.184 0.029372 *
## bedrooms 0.09564 0.01801 5.312 1.59e-07 ***
## recreationyes 0.09519 0.03502 2.718 0.006780 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 0.09471713)
##
## Null deviance: 55.717 on 544 degrees of freedom
## Residual deviance: 51.242 on 541 degrees of freedom
## AIC: 268.14
##
## Number of Fisher Scoring iterations: 2
Nghiên cứu đã xác định các yếu tố ảnh hưởng đến giá nhà tại Windor, Canada trong năm 1987 thông qua phân tích số liệu bằng phương pháp thống kê toán học, sử dụng phần mềm Rstudio, phân tích dữ liệu định tính. Các kết quả chính cho thấy các biến đều có tác động tích cực đến giá nhà. Ngoài ra, vị trí của nhà cũng là một yếu tố quan trọng đối với các nhà nằm trong khu vực ưu tiên có giá cao hơn. Tuy nhiên, nghiên cứu còn một số hạn chế như dữ liệu chỉ dựa trên năm 1987 tại Windsor, Canada và phương pháp hồi quy tuyến tính.
Với mục tiêu phân tích các yếu tố ảnh hưởng đến giá của ngôi nhà, nghiên cứu sử dụng dữ liệu quá khứ được trích xuất từ . Sau khi thưc hiện hồi quy và lựa chọn mô hình phù hợp nhất trong 3 mô hình. Kết quả cho thấy mô hình phù hợp nhất là mô hình hồi quy hàm probit.
Kết quả phân tích cho thấy mức giá bán nhà chịu nhiều sự tác động của các yếu tố gồm: Số lượng phòng ngủ, Vị trí của ngôi nhà và Tiện nghi của ngôi nhà đó.
Qua kết quả hồi quy ta càng thấy rõ được tầm quan trọng của các yếu tố ảnh hưởng đến quyết định mua nhà đối với các nhà đầu tư, điều này giúp cho thị trường bất động sản có các định hướng cụ thể trong tương lai.
Các nhà đầu tư nên tập trung vào các khu vực ưu tiên và các nhà có diện tích lớn, nhiều phòng ngủ, phòng tắm và các tiện nghi cần thiết để tối ưu hóa lợi nhuận đầu tư. Người mua nhà nên xem xét kỹ lưỡng các tiện nghi và vị trí của nhà để đảm bảo chất lượng sống tốt hơn và giá trị bất động sản trong tương lai. Đối với nhà hoạch định chính sách, chính phủ nên đầu tư vào cơ sở hạ tầng và tiện ích công cộng, cũng như hỗ trợ phát triển các ngôi nhà trong các khu vực ưu tiên để ổn định và tăng giá trị thị trường bất động sản. Những kết quả và kiến nghị chính sách trong việc đưa ra các quyết định sáng suốt, mà còn đóng góp vào việc ổn định và phát triển thị trường bất động sản, đảm bảo chất lượng cuộc sống cho cộng đồng.