HousePrices: đây là bộ dữ liệu khảo sát 546 người về giá bán nhà ở thành phố Windsor, Canada, trong tháng 7, 8 và 9 năm 1987.
Bộ dữ liệu gồm 546 quan sát và 12 biến. Trong đó có 6 biến định tính và 6 biến định lượng.
6 biến định tính bao gồm:
driveway: nhà có khu vực riêng để đậu xe không?
recreation: nhà có phòng giải trí không?
fullbase: nhà có được trang bị tầng hầm hoàn thiện hay không? ( tầng hầm hoàn thiện bao gồm các phòng như phòng tập thể dục, trò chơi điện tử, …)
gasheat: nhà có sử dụng gas để đun nước nóng không?
aircon: nhà có máy điều hoà trung tâm không?
prefer: nhà có nằm trong khu trung tâm của thành phố không?
6 biến định lượng bao gồm
price: giá bán nhà
lotsize: diện tích căn nhà
bedrooms: số phòng ngủ của ngôi nhà
bathrooms: số phòng tắm của ngôi nhà
stories: số tầng của ngôi nhà không tính tầng hầm
garage: số gara trong nhà
Đối với biến định lượng tôi chọn biến bedrooms (số phòng ngủ) làm biến phụ thuộc. Lý do tôi chọn biến này làm biến phụ thuộc là để phân tích các yếu tố ảnh hưởng đến số phòng ngủ trong cuộc khảo sát như giá, diện tích, vị trí của ngôi nhà,…
Đối với biến định tính tôi chọn biến fullbase làm biến phụ thuộc. Đây là biến phản ánh trang bị tầng hầm của ngôi nhà có được hoàn thiện hay không? ( tầng hầm hoàn thiện bao gồm các phòng như phòng tập thể dục, trò chơi điện tử, …). Lý do tôi chọn biến này làm biến phụ thuộc là vì muốn phân tích các yếu tố ảnh hưởng đến việc trang bị của tầng hầm như diện tích ngôi nhà, giá nhà, …
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 25000 49125 62000 68122 82000 190000
## [1] 26702.67
Giá bán nhà dao động ở mức tử 25.000 USD đến 190.000 USD. Giá bán trung bình là 68.122 USD.
Có 25% số người trong cuộc khảo sát có giá bán thấp hơn 49.125 USD.
Có 50% số người trong cuộc khảo sát có giá bán thấp hơn 62.000 USD.
Có 75% số người trong cuộc khảo sát có giá bán thấp hơn 82.000 USD.
Giá bán có độ lệch chuẩn là 26702,67.
ID <- seq(1,546, length = length(h$price))
hID <- mutate(h,ID)
hID |> ggplot(aes( x = ID, y = price)) + geom_col( fill = 'lightpink') + xlab('ID') + ylab('Giá nhà')BIỂU ĐỘ THỂ HIỆN GIÁ BÁN
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1650 3600 4600 5150 6360 16200
## [1] 2168.159
Diện tích ngôi nhà dao động trong khoảng từ 1.650 sqft đến 16.200 sqft. (sqft: feet vuông)
Diện tích trung bình là 5.150 sqft.
Có 25% số người trong cuộc khảo sát có diện tích nhà nhỏ hơn 3.600 sqft.
Có 50% số người trong cuộc khảo sát có diện tích nhà nhỏ hơn 4.600 sqft.
Có 75% số người trong cuộc khảo sát có diện tích nhà nhỏ hơn 6.360 sqft.
Diện tích ngôi nhà có độ lệch chuẩn là 2168,159.
hID |> ggplot( aes( x = ID, y = lotsize)) + geom_col( fill='lightpink') + xlab('ID') + ylab('Diện tích')BIỂU ĐỒ THỂ HIỆN DIỆN TÍCH NHÀ
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 2.000 3.000 2.965 3.000 6.000
## [1] 0.543741
## [1] 0.7373879
Trong cuộc khảo sát, số phòng ngủ trong nhà dao động từ 1 đến 6 phòng.
Số phòng ngủ trung bình là gần 3 phòng.
Có 25% số người trong cuộc khảo sát có ít hơn 2 phòng ngủ trong nhà.
Có 75% số người trong cuộc khảo sát có ít hơn 3 phòng ngủ trong nhà.
Số phòng ngủ có phương sai là 0,5437 và độ lệch chuẩn là 0,7374.
##
## 1 2 3 4 5 6
## 2 136 301 95 10 2
##
## 1 2 3 4 5 6
## 0.3663004 24.9084249 55.1282051 17.3992674 1.8315018 0.3663004
h |> ggplot( aes( x = bedrooms, y= after_stat(count))) + geom_bar(fill='lightpink') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('Số phòng ngủ') + ylab('Số người')Nhà có 3 phòng ngủ chiếm tỷ lệ cao nhất 55,13%.
Nhà có 1 phòng ngủ và nhà có 6 phòng ngủ chiếm tỉ lệ thấp nhất 0,37%.
Nhà có 2 phòng ngủ chiếm tỷ lệ 24,91%.
Nhà có 4 phòng ngủ chiếm tỷ lệ 17,4%.
Nhà có 5 phòng ngủ chiếm tỷ lệ 1,83%.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.000 1.000 1.286 2.000 4.000
## [1] 0.2521625
## [1] 0.5021579
Trong cuộc khảo sát, số phòng tắm trong nhà giao động từ 1 đến 4 phòng. Số phòng trung bình là 1.
Có 50% số người trong cuộc khảo sát có 1 phòng tắm trong nhà.
Có 75% số người trong cuộc khảo sát có ít hơn 2 phòng tắm trong nhà.
##
## 1 2 3 4
## 402 133 10 1
##
## 1 2 3 4
## 73.6263736 24.3589744 1.8315018 0.1831502
h |> ggplot( aes( x = bathrooms, y= after_stat(count))) + geom_bar(fill='lightpink') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('Số phòng tắm') + ylab('Số người')Nhà có 1 phòng tắm chiếm tỷ lệ cao nhất 73,63%
Nhà có 4 phòng tắm chiếm tỷ lệ thấp nhất 0,18%
Nhà có 2 phòng tắm chiếm tỷ lệ 24,36% và nhà có 3 phòng tắm chiếm tỷ lệ 1,83%
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 1.000 2.000 1.808 2.000 4.000
## [1] 0.7537756
## [1] 0.8682025
Trong cuộc khảo sát, số tầng của ngôi nhà không tính tầng hầm dao động từ 1 đến 4 tầng.
Có 25% số người trong cuộc khảo sát có nhà ít hơn 1 tầng (không tính tầng hầm)
Có 75% số người trong cuộc khảo sát có nhà ít hơn 2 tầng (không tính tầng hầm)
##
## 1 2 3 4
## 227 238 40 41
##
## 1 2 3 4
## 41.575092 43.589744 7.326007 7.509158
h |> ggplot( aes( x = stories, y= after_stat(count))) + geom_bar(fill='lightpink') + geom_text(aes(label= scales :: percent(after_stat(count/sum(count)),accuracy=.01)), stat = 'count', color= 'black', vjust= -.5) + theme_classic() + xlab('Số tầng') + ylab('Số người')Nhà có 2 tầng (không tính tầng hầm) chiếm tỷ lệ cao nhất 43,59%
Nhà có 3 tầng (không tính tầng hầm) chiếm tỷ lệ thấp nhất 7,33%
Nhà có 1 tầng (không tính tầng hầm) chiếm tỷ lệ 41,58%
Nhà có 4 tầng (không tính tầng hầm) chiếm tỷ lệ 7,51%
##
## no yes
## 77 469
##
## no yes
## 14.10256 85.89744
h |> ggplot(aes( x = driveway, y = after_stat(count))) +
geom_bar(fill = 'lightpink') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 1.5) +
theme_classic() +
labs(x = 'driveway', y = 'Số người')ld <- h %>% group_by(driveway) %>% summarise( n=n()) %>% mutate( percent =n/sum(n))
ld |> ggplot(aes(x='', y=percent, fill= driveway)) + geom_bar(stat='identity', width = 1) + geom_text(aes(label = paste0(round(percent*100), "%")), position = position_stack(vjust = 0.5))+
coord_polar("y", start = 0) +
scale_fill_manual(values = c("lightpink", "moccasin"), name = "driveway") +
labs(title = "driveway") +
theme_minimal()Có 14% số người trong cuộc khảo sát không có khu vực riêng để đậu xe
Có 86% số người trong cuộc khảo sát có nhà có khu vực riêng để đậu xe.
##
## no yes
## 449 97
##
## no yes
## 82.23443 17.76557
h |> ggplot(aes( x = recreation, y = after_stat(count))) +
geom_bar(fill = 'lightpink') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 1.5) +
theme_classic() +
labs(x = 'Phòng giải trí', y = 'Số người')gt <- h %>% group_by(recreation) %>% summarise( n=n()) %>% mutate( percent =n/sum(n))
gt |> ggplot(aes(x='', y=percent, fill= recreation)) + geom_bar(stat='identity', width = 1) + geom_text(aes(label = paste0(round(percent*100), "%")), position = position_stack(vjust = 0.5))+
coord_polar("y", start = 0) +
scale_fill_manual(values = c("lightpink", "moccasin"), name = "Phòng giải trí") +
labs(title = "PHÒNG GIẢI TRÍ") +
theme_minimal()##
## no yes
## 355 191
##
## no yes
## 65.01832 34.98168
h |> ggplot(aes( x = fullbase, y = after_stat(count))) +
geom_bar(fill = 'lightpink') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 1.5) +
theme_classic() +
labs(x = 'fullbase', y = 'Số người')thht <- h %>% group_by(fullbase) %>% summarise( n=n()) %>% mutate( percent =n/sum(n))
thht |> ggplot(aes(x='', y=percent, fill= fullbase)) + geom_bar(stat='identity', width = 1) + geom_text(aes(label = paste0(round(percent*100), "%")), position = position_stack(vjust = 0.5))+
coord_polar("y", start = 0) +
scale_fill_manual(values = c("lightpink", "moccasin"), name = "fullbase") +
labs(title = "fullbase") +
theme_minimal()##
## no yes
## 521 25
##
## no yes
## 95.421245 4.578755
h |> ggplot(aes( x = gasheat, y = after_stat(count))) +
geom_bar(fill = 'lightpink') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 1.5) +
theme_classic() +
labs(x = 'gasheat', y = 'Số người')gas <- h %>% group_by(gasheat) %>% summarise( n=n()) %>% mutate( percent =n/sum(n))
gas |> ggplot(aes(x='', y=percent, fill= gasheat)) + geom_bar(stat='identity', width = 1) + geom_text(aes(label = paste0(round(percent*100), "%")), position = position_stack(vjust = 0.5))+
coord_polar("y", start = 0) +
scale_fill_manual(values = c("lightpink", "moccasin"), name = "gasheat") +
labs(title = "gasheat") +
theme_minimal()##
## no yes
## 373 173
##
## no yes
## 68.31502 31.68498
h |> ggplot(aes( x = aircon, y = after_stat(count))) +
geom_bar(fill = 'lightpink') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 1.5) +
theme_classic() +
labs(x = 'aircon', y = 'Số người')air <- h %>% group_by(aircon) %>% summarise( n=n()) %>% mutate( percent =n/sum(n))
air |> ggplot(aes(x='', y=percent, fill= aircon)) + geom_bar(stat='identity', width = 1) + geom_text(aes(label = paste0(round(percent*100), "%")), position = position_stack(vjust = 0.5))+
coord_polar("y", start = 0) +
scale_fill_manual(values = c("lightpink", "moccasin"), name = "aircon") +
labs(title = "aircon") +
theme_minimal()##
## 0 1 2 3
## 300 126 108 12
##
## 0 1 2 3
## 54.945055 23.076923 19.780220 2.197802
h |> ggplot(aes( x = garage, y = after_stat(count))) +
geom_bar(fill = 'lightpink') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 1.5) +
theme_classic() +
labs(x = 'garage', y = 'Số người')Nhà không có gara chiếm tỷ lệ cao nhất 54,9%
Nhà có 3 gara chiếm tỷ lệ thấp nhất 2,2%
Nhà có 1 gara chiếm 23,1% và nhà có 2 gara chiếm 19,8%
##
## no yes
## 418 128
##
## no yes
## 76.55678 23.44322
h |> ggplot(aes( x = prefer, y = after_stat(count))) +
geom_bar(fill = 'lightpink') +
geom_text(aes(label = scales::percent( after_stat(count/sum(count)))), stat = 'count', color = 'black', vjust = 1.5) +
theme_classic() +
labs(x = 'prefer', y = 'Số người')pre <- h %>% group_by(prefer) %>% summarise( n=n()) %>% mutate( percent =n/sum(n))
pre |> ggplot(aes(x='', y=percent, fill= prefer)) + geom_bar(stat='identity', width = 1) + geom_text(aes(label = paste0(round(percent*100), "%")), position = position_stack(vjust = 0.5))+
coord_polar("y", start = 0) +
scale_fill_manual(values = c("lightpink", "moccasin"), name = "prefer") +
labs(title = "prefer") +
theme_minimal()fullbase: nhà có được trang bị tầng hầm hoàn thiện hay không? ( tầng hầm hoàn thiện bao gồm các phòng như phòng tập thể dục, trò chơi điện tử, …)
prefer: nhà có nằm trong khu vực trung tâm thành phố không?
##
## no yes Sum
## no 297 58 355
## yes 121 70 191
## Sum 418 128 546
Có 297 người có nhà không nằm trong khu vực trung tâm thành phố và không có tầng hầm được trang bị hoàn thiện.
Có 121 người có nhà không nằm trong khu vực trung tâm thành phố nhưng có tầng hầm được trang bị hoàn thiện.
Có 58 người có nhà nằm trong khu vực trung tâm thành phố nhưng không có tầng hầm được trang bị hoàn thiện.
Có 70 người có nhà nằm trong khu vực trung tâm thành phố và có tầng hầm được trang bị hoàn thiện.
## [1] 1.320615
## $data
##
## no yes Total
## no 297 58 355
## yes 121 70 191
## Total 418 128 546
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## no 1.000000 NA NA
## yes 2.243185 1.661303 3.028874
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 1.724756e-07 1.669965e-07 9.151904e-08
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ những người nhà không có tầng hầm được trang bị hoàn thiện không nằm trong khu vực trung thành phố nhiều hơn 32% so với tỷ lệ những người nhà có tầng hầm được trang bị hoàn thiện không nằm trong khu vực trung thành phố.
Tỷ lệ những người có nhà nằm trong khu vực trung tâm thành phố có tầng hầm được trang bị hoàn thiện bằng 2,24 lần tỷ lệ những người có nhà nằm trong khu vực trung tâm thành phố không có tầng được trang bị hoàn thiện.
## $data
##
## no yes Total
## no 297 58 355
## yes 121 70 191
## Total 418 128 546
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## no 1.00000 NA NA
## yes 2.95422 1.967706 4.455468
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 1.724756e-07 1.669965e-07 9.151904e-08
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
h |> count(fullbase, prefer) |>
group_by(fullbase) |>
mutate(pH = n/sum(n)) |>
ggplot(aes(x = fullbase, y = n, fill = prefer)) +
geom_col() +
geom_text(aes(label = percent(pH, accuracy = .01)), position = position_stack(vjust = 0.5), size = 4) +
ylab('prefer') +
xlab('fullbase')Đọc đồ thị, ta thấy:
Trong số những ngôi nhà không có tầng hầm được trang bị hoàn thiện thì có 83,66% không nằm trong khu vực trung tâm thành phố và 16,34% nằm trong khu vực trung tâm thành phố.
Trong số những ngôi nhà có tầng hầm được trang bị hoàn thiện thì có 63,35% không nằm trong khu vực trung tâm thành phố và 36,65% nằm trong khu vực trung tâm thành phố.
fullbase: nhà có được trang bị tầng hầm hoàn thiện hay không? ( tầng hầm hoàn thiện bao gồm các phòng như phòng tập thể dục, trò chơi điện tử, …)
driveway: khu vực đậu xe riêng của nhà
##
## no yes Sum
## no 54 301 355
## yes 23 168 191
## Sum 77 469 546
Có 54 người trong cuộc khảo sát nhà không có khu vực đậu xe riêng và không có tầng hầm được trang bị hoàn thiện.
Có 301 người trong cuộc khảo sát nhà có khu vực đậu xe riêng nhưng không có tầng hầm được trang bị hoàn thiện.
Có 34 người trong cuộc khảo sát nhà không có khu vực đậu xe riêng nhưng có tầng hầm được trang bị hoàn thiện.
Có 168 người trong cuộc khảo sát nhà có khu vực đậu xe riêng và có tầng hầm được trang bị hoàn thiện.
## [1] 1.263197
## $data
##
## no yes Total
## no 54 301 355
## yes 23 168 191
## Total 77 469 546
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## no 1.00000 NA NA
## yes 1.03738 0.9686805 1.110951
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0.3141123 0.367124 0.3102127
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người có nhà không có khu vực đậu xe riêng và không có tầng hầm được trang bị hoàn thiện nhiều hơn 26% so với tỷ lệ người có nhà không có khu vực đậu xe riêng nhưng có tầng hầm được trang bị hoàn thiện.
Tỷ lệ người có nhà có khu vực đậu xe riêng và có tầng hầm được trang bị hoàn thiện nhiều hơn 3,7% so với tỷ lệ người có nhà có khu vực đậu xe riêng nhưng không có tầng hầm được trang bị hoàn thiện.
## $data
##
## no yes Total
## no 54 301 355
## yes 23 168 191
## Total 77 469 546
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## no 1.000000 NA NA
## yes 1.305199 0.7811282 2.24292
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0.3141123 0.367124 0.3102127
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
h |> count(fullbase, driveway) |>
group_by(fullbase) |>
mutate(pH = n/sum(n)) |>
ggplot(aes(x = fullbase, y = n, fill = driveway)) +
geom_col() +
geom_text(aes(label = percent(pH, accuracy = .01)), position = position_stack(vjust = 0.5), size = 4) +
ylab('driveway') +
xlab('fullbase')Nhìn đồ thị ta thấy:
Trong số những ngôi nhà không có tầng hầm được trang bị hoàn thiện thì có 84,79% là nhà có khu vực đậu xe riêng và 15,21% là nhà không có khu vực đậu xe riêng.
Trong số những ngôi nhà có tầng hầm được trang bị hoàn thiện thì có 87,96% là nhà có khu vực đậu xe riêng và 12,04% là nhà không có khu vực đậu xe riêng.
fullbase: nhà có được trang bị tầng hầm hoàn thiện hay không? ( tầng hầm hoàn thiện bao gồm các phòng như phòng tập thể dục, trò chơi điện tử, …)
price: giá bán nhà
##
## thấp cao Sum
## no 247 108 355
## yes 98 93 191
## Sum 345 201 546
Có 247 người trong cuộc khảo sát có nhà không có tầng hầm được trang bị hoàn thiện được bán với mức giá thấp.
Có 108 người trong cuộc khảo sát có nhà không có tầng hầm được trang bị hoàn thiện được bán với mức giá cao.
Có 98 người trong cuộc khảo sát có nhà có tầng hầm được trang bị hoàn thiện được bán với mức giá thấp.
Có 93 người trong cuộc khảo sát có nhà có tầng hầm được trang bị hoàn thiện được bán với mức giá cao.
## [1] 1.356051
## $data
##
## thấp cao Total
## no 247 108 355
## yes 98 93 191
## Total 345 201 546
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## no 1.000000 NA NA
## yes 1.600494 1.291717 1.983083
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 2.91145e-05 3.944639e-05 2.4313e-05
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ những người có nhà không có tầng hầm được trang bị hoàn thiện được bán với mức giá thấp nhiều hơn 35,6% so với tỷ lệ những người có nhà có tầng hầm được trang bị hoàn thiện được bán với mức giá thấp.
Tỷ lệ những người có nhà có tầng hầm được trang bị hoàn thiện được bán với mức giá cao nhiều hơn 60,05% so với tỷ lệ người có nhà không có tầng hầm được trang bị hoàn thiện được bán với mức giá cao.
## $data
##
## thấp cao Total
## no 247 108 355
## yes 98 93 191
## Total 345 201 546
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## no 1.000000 NA NA
## yes 2.166523 1.507616 3.120285
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 2.91145e-05 3.944639e-05 2.4313e-05
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
h |> count(fullbase, gia) |>
group_by(fullbase) |>
mutate(pH = n/sum(n)) |>
ggplot(aes(x = fullbase, y = n, fill = gia)) +
geom_col() +
geom_text(aes(label = percent(pH, accuracy = .01)), position = position_stack(vjust = 0.5), size = 4) +
ylab('Giá bán nhà') +
xlab('fullbase')Nhìn đồ thị ta thấy:
Trong số những ngôi nhà không có tầng hầm được trang bị hoàn thiện thì có 30,42% là nhà được bán với mức giá cao và 69,58% là nhà được bán với mức giá thấp.
Trong số những ngôi nhà có tầng hầm được trang bị hoàn thiện thì có 48,69% là nhà được bán với mức giá cao và 51,31% là nhà được bán với mức giá thấp.
fullbase: nhà có được trang bị tầng hầm hoàn thiện hay không? ( tầng hầm hoàn thiện bao gồm các phòng như phòng tập thể dục, trò chơi điện tử, …)
recreation: nhà có phòng giải trí không?
##
## no yes Sum
## no 329 26 355
## yes 120 71 191
## Sum 449 97 546
Có 329 người trong cuộc khảo sát có nhà không được trang bị tầng hầm hoàn thiện và không có phòng giải trí.
Có 26 người trong cuộc khảo sát có nhà không được trang bị tầng hầm hoàn thiện nhưng có phòng giải trí.
Có 120 người trong cuộc khảo sát có nhà được trang bị tầng hầm hoàn thiện nhưng không có phòng giải trí.
Có 71 người trong cuộc khảo sát có nhà được trang bị tầng hầm hoàn thiện và có phòng giải trí.
## [1] 1.475094
## $data
##
## no yes Total
## no 329 26 355
## yes 120 71 191
## Total 449 97 546
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## no 1.000000 NA NA
## yes 5.075513 3.356849 7.674112
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0 2.760878e-17 3.24569e-18
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ những nhà không có tầng hầm được trang bị hoàn thiện và không có phòng giải trí nhiều hơn 47,5% tỷ lệ những nhà có tầng hầm được trang bị hoàn thiện nhưng không có phòng giải trí.
Tỷ lệ những nhà có tầng hầm được trang bị hoàn thiện và có phòng giải trí gấp 5 lần tỷ lệ những nhà không có tầng hầm được trang bị hoàn thiện nhưng có phòng giải trí.
## $data
##
## no yes Total
## no 329 26 355
## yes 120 71 191
## Total 449 97 546
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## no 1.000000 NA NA
## yes 7.428772 4.574343 12.39923
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0 2.760878e-17 3.24569e-18
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
h |> count(fullbase, recreation) |>
group_by(fullbase) |>
mutate(pH = n/sum(n)) |>
ggplot(aes(x = fullbase, y = n, fill = recreation)) +
geom_col() +
geom_text(aes(label = percent(pH, accuracy = .01)), position = position_stack(vjust = 0.5), size = 4) +
ylab('recreation') +
xlab('fullbase')Nhìn đồ thị ta thấy:
Trong số những nhà không có tầng hầm được trang bị hoàn thiện thì có 7,32% là có phòng giải trí và 92,68% là không có phòng giải trí.
Trong số những nhà có tầng hầm được trang bị hoàn thiện thì có 37,17% là có phòng giải trí và 62,83% là không có phòng giải trí.
fullbase: nhà có được trang bị tầng hầm hoàn thiện hay không? ( tầng hầm hoàn thiện bao gồm các phòng như phòng tập thể dục, trò chơi điện tử, …)
lotsize: diện tích căn nhà
##
## Small Big
## 343 203
Tôi chia biến lotsize (diện tích căn nhà) thành 2 phần Big (lớn) và Small (nhỏ). Thì trong cuộc khảo sát có 343 có diện tích nhỏ và 203 căn nhà có diện tich lớn.
##
## Small Big Sum
## no 234 121 355
## yes 109 82 191
## Sum 343 203 546
Có 234 người trong cuộc khảo sát có nhà có diện tích nhỏ và không có tầng hầm được trang bị hoàn thiện.
Có 121 người trong cuộc khảo sát có nhà có diện tích lớn nhưng không có tầng hầm được trang bị hoàn thiện.
Có 109 người trong cuộc khảo sát có nhà có diện tích nhỏ nhưng có tầng hầm được trang bị hoàn thiện.
Có 82 người trong cuộc khảo sát có nhà có diện tích lớn và có tầng hầm được trang bị hoàn thiện.
## [1] 1.155033
## $data
##
## Small Big Total
## no 234 121 355
## yes 109 82 191
## Total 343 203 546
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## no 1.000000 NA NA
## yes 1.259573 1.012536 1.566882
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0.04280097 0.05104901 0.0413414
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ những người có nhà có diện tích nhỏ không có tầng hầm được trang bị hoàn thiện nhiều hơn 15,5% so với tỷ lệ những người có nhà có diện tích nhỏ nhưng có tầng hầm được trang bị hoàn thiện.
Tỷ lệ những người có nhà có diện tích lớn có tầng hầm được trang bị hoàn thiện nhiều hơn 25,96% so với tỷ lệ những người có nhà có diện tích lớn nhưng không có tầng hầm được trang bị hoàn thiện.
## $data
##
## Small Big Total
## no 234 121 355
## yes 109 82 191
## Total 343 203 546
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## no 1.000000 NA NA
## yes 1.453937 1.012248 2.087186
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## no NA NA NA
## yes 0.04280097 0.05104901 0.0413414
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
h |> count(fullbase, size) |>
group_by(fullbase) |>
mutate(pH = n/sum(n)) |>
ggplot(aes(x = fullbase, y = n, fill = size)) +
geom_col() +
geom_text(aes(label = percent(pH, accuracy = .01)), position = position_stack(vjust = 0.5), size = 4) +
ylab('size') +
xlab('fullbase')Nhìn đồ thị ta thấy:
Trong số những ngôi nhà không có tầng hầm được trang bị hoàn thiện thì có 34,08% là nhà có diện tich lớn và 65,92% là nhà có diện tich nhỏ.
Trong số những ngôi nhà có tầng hầm được trang bị hoàn thiện thì có 42,93% là nhà có diện tich lớn và 57,07% là nhà có diện tich nhỏ.
bedrooms: số phòng ngủ
size: diện tích căn nhà
##
## ít nhiều
## 138 408
##
## Small Big Sum
## ít 104 34 138
## nhiều 239 169 408
## Sum 343 203 546
Có 104 người trong cuộc khảo sát có diện tích nhà nhỏ có ít phòng ngủ.
Có 34 người trong cuộc khảo sát có diện tích nhà lớn có ít phòng ngủ.
Có 239 người trong cuộc khảo sát có diện tích nhà nhỏ có nhiều phòng ngủ .
Có 169 người trong cuộc khảo sát có diện tích nhà lớn có nhiều phòng ngủ.
## [1] 1.28652
## $data
##
## Small Big Total
## ít 104 34 138
## nhiều 239 169 408
## Total 343 203 546
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## ít 1.000000 NA NA
## nhiều 1.681228 1.22843 2.300927
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## ít NA NA NA
## nhiều 0.0003476904 0.0003624873 0.0004208389
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ những người có nhà diện tích nhỏ có ít phòng ngủ nhiều hơn 28,65% so với tỷ lệ những người có nhà diện tích nhỏ có nhiều phòng ngủ.
Tỷ lệ những người có nhà diện tích lớn có nhiều phòng ngủ nhiều hơn 68,12% so với tỷ lệ những người có nhà diện tích lớn có ít phòng ngủ.
## $data
##
## Small Big Total
## ít 104 34 138
## nhiều 239 169 408
## Total 343 203 546
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## ít 1.000000 NA NA
## nhiều 2.154556 1.406418 3.367406
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## ít NA NA NA
## nhiều 0.0003476904 0.0003624873 0.0004208389
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
h |> count(ngu, size) |>
group_by(ngu) |>
mutate(pH = n/sum(n)) |>
ggplot(aes(x = ngu, y = n, fill = size)) +
geom_col() +
geom_text(aes(label = percent(pH, accuracy = .01)), position = position_stack(vjust = 0.5), size = 4) +
ylab('Diện tích ngôi nhà') +
xlab('Số phòng ngủ')Nhìn đồ thị ta thấy:
Trong số những ngôi nhà có ít phòng ngủ thì có 24,64% là những ngôi nhà có diện tích lớn và 75,36% là những ngôi nhà có diện tích nhỏ.
Trong số những ngôi nhà có nhiều phòng ngủ thì có 41,42% là những ngôi nhà có diện tích lớn và 58,58% là những ngôi nhà có diện tích nhỏ.
price: giá bán nhà
bedrooms: số phòng ngủ
##
## thấp cao
## 345 201
##
## thấp cao Sum
## ít 127 11 138
## nhiều 218 190 408
## Sum 345 201 546
Có 127 người trong cuộc khảo sát có ít phòng ngủ có mức giá bán thấp.
Có 111 người trong cuộc khảo sát có ít phòng ngủ có mức giá bán cao.
Có 218 người trong cuộc khảo sát có nhiều phòng ngủ có mức giá bán thấp.
Có 190 người trong cuộc khảo sát có nhiều phòng ngủ có mức giá bán cao.
## [1] 1.722377
## $data
##
## thấp cao Total
## ít 127 11 138
## nhiều 218 190 408
## Total 345 201 546
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## ít 1.000000 NA NA
## nhiều 5.842246 3.282996 10.39655
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## ít NA NA NA
## nhiều 0 2.243681e-18 4.408231e-16
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ những nhà có ít phòng ngủ được bán với mức giá thấp nhiều hơn 72,24%% so với tỷ lệ những nhà có nhiều phòng ngủ được bán với mức giá thấp.
Tỷ lệ những nhà có nhiều phòng ngủ được bán với mức giá cao cao gấp 5,84 lần so với tỷ lệ những nhà có ít phòng ngủ được bán với mức giá cao.
## $data
##
## thấp cao Total
## ít 127 11 138
## nhiều 218 190 408
## Total 345 201 546
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## ít 1.000000 NA NA
## nhiều 9.905394 5.41057 20.04372
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## ít NA NA NA
## nhiều 0 2.243681e-18 4.408231e-16
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
h |> count(ngu, gia) |>
group_by(ngu) |>
mutate(pH = n/sum(n)) |>
ggplot(aes(x = ngu, y = n, fill = gia)) +
geom_col() +
geom_text(aes(label = percent(pH, accuracy = .01)), position = position_stack(vjust = 0.5), size = 4) +
ylab('Giá bán nhà') +
xlab('Số phòng ngủ')Nhìn đồ thị ta thấy:
Trong số những ngôi nhà có ít phòng ngủ thì có 7,97% là nhà có mức giá bán cao, 92,03% là nhà có mức giá bán thấp.
Trong số những ngôi nhà có nhiều phòng ngủ thì có 46,57% là nhà có mức giá bán cao, 53,43% là nhà có mức giá bán thấp.
prefer: nhà có nằm trong khu vực trung tâm thành phố không
bedrooms: số phòng ngủ
##
## no yes Sum
## ít 122 16 138
## nhiều 296 112 408
## Sum 418 128 546
Có 122 người trong cuộc khảo sát nhà có ít phòng ngủ không nằm trong khu vực trung tâm thành phố.
Có 296 người trong cuộc khảo sát nhà có nhiều phòng ngủ không nằm trong khu vực trung tâm thành phố.
Có 16 người trong cuộc khảo sát nhà có ít phòng ngủ không nằm trong khu vực trung tâm thành phố.
Có 112 người trong cuộc khảo sát nhà có nhiều phòng ngủ nằm trong khu vực trung tâm thành phố.
## [1] 1.218566
## $data
##
## no yes Total
## ít 122 16 138
## nhiều 296 112 408
## Total 418 128 546
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## ít 1.000000 NA NA
## nhiều 2.367647 1.454887 3.853049
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## ít NA NA NA
## nhiều 7.29951e-05 0.0001082007 0.0001441648
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ nhà có ít phòng ngủ không nằm trong khu vực trung tâm thành phố nhiều hơn 21,86% so với tỷ lệ nhà có nhiều phòng ngủ nằm trong khu vực trung tâm thành phố.
Tỷ lệ nhà có nhiều phòng ngủ nằm trong khu vực trung tâm thành phố gấp 2,37 lần so với tỷ lệ nhà có ít phòng ngủ nằm trong khu vực trung tâm thành phố.
## $data
##
## no yes Total
## ít 122 16 138
## nhiều 296 112 408
## Total 418 128 546
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## ít 1.000000 NA NA
## nhiều 2.859007 1.665527 5.210635
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## ít NA NA NA
## nhiều 7.29951e-05 0.0001082007 0.0001441648
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
h |> count(ngu, prefer) |>
group_by(ngu) |>
mutate(pH = n/sum(n)) |>
ggplot(aes(x = ngu, y = n, fill = prefer)) +
geom_col() +
geom_text(aes(label = percent(pH, accuracy = .01)), position = position_stack(vjust = 0.5), size = 4) +
ylab('Vị trí nhà') +
xlab('Số phòng ngủ')Nhìn đồ thị ta thấy:
Trong số những ngôi nhà có ít phòng ngủ thì có 11,59% là nhà nằm trong khu vực trung tâm thành phố và 88,41% là nhà không nằm trong khu vực trung tâm thành phố.
Trong số những ngôi nhà có nhiều phòng ngủ thì có 27,45% là nhà nằm trong khu vực trung tâm thành phố và 72,55% là nhà không nằm trong khu vực trung tâm thành phố.
stories: số tầng không tính tầng hầm
bedrooms: số phòng ngủ
##
## ít nhiều
## 227 319
##
## ít nhiều Sum
## ít 117 21 138
## nhiều 110 298 408
## Sum 227 319 546
Có 117 người trong cuộc khảo sát có nhà có ít tầng có ít phòng ngủ.
Có 21 người trong cuộc khảo sát có nhà có nhiều tầng có ít phòng ngủ.
Có 110 người trong cuộc khảo sát có nhà có ít tầng có nhiều phòng ngủ.
Có 298 người trong cuộc khảo sát có nhà có nhiều tầng có nhiều phòng ngủ.
## [1] 3.144664
## $data
##
## ít nhiều Total
## ít 117 21 138
## nhiều 110 298 408
## Total 227 319 546
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## ít 1.00000 NA NA
## nhiều 4.79972 3.223136 7.147483
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## ít NA NA NA
## nhiều 0 1.419547e-33 1.003275e-32
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ người có nhà ít tầng có ít phòng ngủ cao gấp 3,14 lần so với tỷ lệ người có nhà có ít tầng có nhiều phòng ngủ.
Tỷ lệ người có nhà có nhiều tầng có nhiều phòng ngủ cao gấp 4,8 lần so với tỷ lệ người có nhà có nhiều tầng có ít phòng ngủ.
## $data
##
## ít nhiều Total
## ít 117 21 138
## nhiều 110 298 408
## Total 227 319 546
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## ít 1.00000 NA NA
## nhiều 14.92381 9.094548 25.57279
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## ít NA NA NA
## nhiều 0 1.419547e-33 1.003275e-32
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
h |> count(ngu, tang) |>
group_by(ngu) |>
mutate(pH = n/sum(n)) |>
ggplot(aes(x = ngu, y = n, fill = tang)) +
geom_col() +
geom_text(aes(label = percent(pH, accuracy = .01)), position = position_stack(vjust = 0.5), size = 4) +
ylab('Số tầng') +
xlab('Số phòng ngủ')Trong số những ngôi nhà có ít phòng ngủ có 15,22% là nhà có nhiều tầng và 84,78% là nhà có ít tầng.
Trong số những ngôi nhà có nhiều phòng ngủ có 73,04% là nhà có nhiều tầng và 26,96% là nhà có ít tầng.
fullbase: nhà có được trang bị tầng hầm hoàn thiện hay không? ( tầng hầm hoàn thiện bao gồm các phòng như phòng tập thể dục, trò chơi điện tử, …)
prefer: nhà có nằm trong khu vực trung tâm thành phố không?
Đặt giả thiết:
H0: Hai biến độc lập
H1: Hai biến không độc lập
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: a1
## X-squared = 27.425, df = 1, p-value = 1.633e-07
Kết quả này cho chúng ta thấy rằng p-value < 0.05. đây cũng là bằng chứng để ta bác bỏ giả thuyết H0. Vậy 2 biến fullbase và prefer là hai biến không độc lập với nhau.
fullbase: nhà có được trang bị tầng hầm hoàn thiện hay không? ( tầng hầm hoàn thiện bao gồm các phòng như phòng tập thể dục, trò chơi điện tử, …)
driveway: nhà có khu vực đậu xe riêng không?
Đặt giả thiết:
H0: Hai biến độc lập
H1: Hai biến không độc lập
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: a2
## X-squared = 0.78475, df = 1, p-value = 0.3757
Kết quả này cho chúng ta thấy rằng p-value = 0,3757 > 0.05. Chấp nhận giả thiết H0. Vậy 2 biến fullbase và driveway là hai biến độc lập với nhau.
fullbase: nhà có được trang bị tầng hầm hoàn thiện hay không? ( tầng hầm hoàn thiện bao gồm các phòng như phòng tập thể dục, trò chơi điện tử, …)
price: giá bán nhà
Đặt giả thiết:
H0: Hai biến độc lập
H1: Hai biến không độc lập
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: a3
## X-squared = 17.041, df = 1, p-value = 3.658e-05
Kết quả này cho chúng ta thấy rằng p-value < 0.05. Đây cũng là bằng chứng để ta bác bỏ giả thuyết H0. Vậy 2 biến fullbase và gia là hai biến không độc lập với nhau.
fullbase: nhà có được trang bị tầng hầm hoàn thiện hay không? ( tầng hầm hoàn thiện bao gồm các phòng như phòng tập thể dục, trò chơi điện tử, …)
recreation: nhà có phòng giải trí không?
Đặt giả thiết:
H0: Hai biến độc lập
H1: Hai biến không độc lập
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: a4
## X-squared = 73.705, df = 1, p-value < 2.2e-16
Kết quả này cho chúng ta thấy rằng p-value < 0.05. Đây cũng là bằng chứng để ta bác bỏ giả thuyết H0. Vậy 2 biến fullbase và recreation là hai biến không độc lập với nhau.
fullbase: nhà có được trang bị tầng hầm hoàn thiện hay không? ( tầng hầm hoàn thiện bao gồm các phòng như phòng tập thể dục, trò chơi điện tử, …)
lotsize: diện tích căn nhà
Đặt giả thiết:
H0: Hai biến độc lập
H1: Hai biến không độc lập
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: a5
## X-squared = 3.7918, df = 1, p-value = 0.0515
Kết quả này cho chúng ta thấy rằng p-value > 0.05. Đây cũng là bằng chứng để ta chấp nhận giả thuyết H0. Vậy 2 biến fullbase và lotsize là hai biến độc lập với nhau.
ngu: số phòng ngủ
size: diện tích căn nhà
Đặt giả thiết:
H0: Hai biến độc lập
H1: Hai biến không độc lập
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: a6
## X-squared = 11.729, df = 1, p-value = 0.0006153
Kết quả này cho chúng ta thấy rằng p-value < 0.05. Đây cũng là bằng chứng để ta bác bỏ giả thuyết H0. Vậy 2 biến ngu và size là hai biến không độc lập với nhau.
gia: giá bán nhà
ngu: số phòng ngủ
Đặt giả thiết:
H0: Hai biến độc lập
H1: Hai biến không độc lập
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: a7
## X-squared = 64.396, df = 1, p-value = 1.018e-15
Kết quả này cho chúng ta thấy rằng p-value < 0.05. Đây cũng là bằng chứng để ta bác bỏ giả thuyết H0. Vậy 2 biến ngu và gia là hai biến không độc lập với nhau.
ngu: số phòng ngủ
prefer: nhà có nằm trong khu vực trung tâm thành phố không
Đặt giả thiết
H0: Hai biến độc lập
H1: Hai biến không độc lập
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: a8
## X-squared = 13.577, df = 1, p-value = 0.000229
Kết quả này cho chúng ta thấy rằng p-value < 0.05. Đây cũng là bằng chứng để ta bác bỏ giả thuyết H0. Vậy 2 biến ngu và prefer là hai biến không độc lập với nhau.
ngu: số phòng ngủ
stories: số tầng của ngôi nhà không tính tầng hầm
Đặt giả thiết:
H0: Hai biến độc lập
H1: Hai biến không độc lập
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: a9
## X-squared = 139.57, df = 1, p-value < 2.2e-16
Kết quả này cho chúng ta thấy rằng p-value < 0.05. Đây cũng là bằng chứng để ta bác bỏ giả thuyết H0. Vậy 2 biến ngu và stories là hai biến không độc lập với nhau.
##
## 1-sample proportions test with continuity correction
##
## data: length(t$price) out of length(h$price), null probability 0.5
## X-squared = 37.452, df = 1, p-value = 9.367e-10
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.3278412 0.4103067
## sample estimates:
## p
## 0.3681319
Với độ tin cậy 95% ta có tỷ lệ người bán nhà với giá trên 70000 USD trong cuộc khảo sát nằm trong khoảng từ 32,78% đến 41,03%.
##
## 1-sample proportions test with continuity correction
##
## data: length(t1$lotsize) out of length(h$lotsize), null probability 0.5
## X-squared = 35.386, df = 1, p-value = 2.704e-09
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.3313961 0.4140253
## sample estimates:
## p
## 0.3717949
Với độ tin cậy 95% ta có tỷ lệ người bán nhà có diện tích trên 5500 sqft trong cuộc khảo sát nằm trong khoảng từ 33,14% đến 41,4%.
##
## 1-sample proportions test with continuity correction
##
## data: length(t2$bedrooms) out of length(h$bedrooms), null probability 0.5
## X-squared = 132.53, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.7082068 0.7827575
## sample estimates:
## p
## 0.7472527
Với độ tin cậy 95% ta có tỷ lệ người bán nhà có nhiều hơn 2 phòng ngủ trong cuộc khảo sát nằm trong khoảng từ 70,82% đến 78,28%.
##
## 1-sample proportions test with continuity correction
##
## data: length(t3$bathrooms) out of length(h$bathrooms), null probability 0.5
## X-squared = 500.97, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.01062914 0.03686823
## sample estimates:
## p
## 0.02014652
Với độ tin cậy 95% ta có tỷ lệ người bán nhà có nhiều hơn 2 phòng tắm trong cuộc khảo sát nằm trong khoảng từ 1,1% đến 3,7%.
##
## 1-sample proportions test with continuity correction
##
## data: length(t4$stories) out of length(h$stories), null probability 0.5
## X-squared = 15.167, df = 1, p-value = 9.843e-05
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.541539 0.625756
## sample estimates:
## p
## 0.5842491
Với độ tin cậy 95% ta có tỷ lệ người bán nhà có nhiều hơn 1 tầng trong cuộc khảo sát nằm trong khoảng từ 54,15% đến 62,58%.
##
## 1-sample proportions test with continuity correction
##
## data: length(t5$driveway) out of length(h$driveway), null probability 0.5
## X-squared = 280, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.1135030 0.1737204
## sample estimates:
## p
## 0.1410256
Với độ tin cậy 95% ta có tỷ lệ người bán nhà có khu vực đậu xe riêng trong cuộc khảo sát nằm trong khoảng từ 11,35% đến 17,37%.
##
## 1-sample proportions test with continuity correction
##
## data: length(t6$recreation) out of length(h$recreation), null probability 0.5
## X-squared = 225.64, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.1470350 0.2129083
## sample estimates:
## p
## 0.1776557
Với độ tin cậy 95% ta có tỷ lệ người bán nhà có phòng giải trí trong cuộc khảo sát nằm trong khoảng từ 14,7% đến 21,3%.
##
## 1-sample proportions test with continuity correction
##
## data: length(t7$fullbase) out of length(h$fullbase), null probability 0.5
## X-squared = 48.661, df = 1, p-value = 3.042e-12
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.3101042 0.3916759
## sample estimates:
## p
## 0.3498168
Với độ tin cậy 95% ta có tỷ lệ người bán nhà có tầng hầm được trang bị hoàn thiện trong cuộc khảo sát nằm trong khoảng từ 31,01% đến 39,2%.
##
## 1-sample proportions test with continuity correction
##
## data: length(t8$gasheat) out of length(h$gasheat), null probability 0.5
## X-squared = 448.76, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.03045780 0.06778902
## sample estimates:
## p
## 0.04578755
Với độ tin cậy 95% ta có tỷ lệ người bán nhà có sử dụng gas để đun nước nóng trong cuộc khảo sát nằm trong khoảng từ 3,05% đến 6,8%.
##
## 1-sample proportions test with continuity correction
##
## data: length(t9$aircon) out of length(h$aircon), null probability 0.5
## X-squared = 72.529, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.2783411 0.3579775
## sample estimates:
## p
## 0.3168498
Với độ tin cậy 95% ta có tỷ lệ người bán nhà có máy điều hoà trung tâm trong cuộc khảo sát nằm trong khoảng từ 27,83% đến 35,8%.
##
## 1-sample proportions test with continuity correction
##
## data: length(t10$garage) out of length(h$garage), null probability 0.5
## X-squared = 497.14, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.01194850 0.03916523
## sample estimates:
## p
## 0.02197802
Với độ tin cậy 95% ta có tỷ lệ người bán nhà có điều hoà trung tâm trong nhà trong cuộc khảo sát nằm trong khoảng từ 1,2% đến 3,9%.
##
## 1-sample proportions test with continuity correction
##
## data: length(t11$prefer) out of length(h$prefer), null probability 0.5
## X-squared = 152.97, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.1999671 0.2727033
## sample estimates:
## p
## 0.2344322
Với độ tin cậy 95% ta có tỷ lệ người bán nhà nằm trong khu vực trung tâm thành phố trong cuộc khảo sát nằm trong khoảng từ 20% đến 27,27%.
MHlog <- glm( fullbase ~ prefer + recreation , family= binomial( link = 'logit'), data=h)
summary(MHlog)##
## Call:
## glm(formula = fullbase ~ prefer + recreation, family = binomial(link = "logit"),
## data = h)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.2299 0.1233 -9.977 < 2e-16 ***
## preferyes 0.9432 0.2231 4.228 2.35e-05 ***
## recreationyes 1.9247 0.2573 7.479 7.48e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 706.89 on 545 degrees of freedom
## Residual deviance: 616.33 on 543 degrees of freedom
## AIC: 622.33
##
## Number of Fisher Scoring iterations: 4
## [1] 0.1894667
## Confusion Matrix and Statistics
##
##
## FALSE TRUE
## FALSE 329 120
## TRUE 26 71
##
## Accuracy : 0.7326
## 95% CI : (0.6934, 0.7693)
## No Information Rate : 0.6502
## P-Value [Acc > NIR] : 2.310e-05
##
## Kappa : 0.3368
##
## Mcnemar's Test P-Value : 1.396e-14
##
## Sensitivity : 0.9268
## Specificity : 0.3717
## Pos Pred Value : 0.7327
## Neg Pred Value : 0.7320
## Prevalence : 0.6502
## Detection Rate : 0.6026
## Detection Prevalence : 0.8223
## Balanced Accuracy : 0.6492
##
## 'Positive' Class : FALSE
##
Ta có mô hình hồi quy:
\(log(\frac{\pi}{1-\pi}) = -1,2299 + 0,9432prefer + 1,9247recreation\)
MHcloglog <- glm( fullbase ~ prefer + recreation , family= binomial( link = 'cloglog'), data=h)
summary(MHcloglog)##
## Call:
## glm(formula = fullbase ~ prefer + recreation, family = binomial(link = "cloglog"),
## data = h)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.3450 0.1044 -12.880 < 2e-16 ***
## preferyes 0.7222 0.1597 4.523 6.11e-06 ***
## recreationyes 1.3768 0.1607 8.567 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 706.89 on 545 degrees of freedom
## Residual deviance: 614.99 on 543 degrees of freedom
## AIC: 620.99
##
## Number of Fisher Scoring iterations: 5
## [1] 0.1890734
confusionMatrix( table( predict(MHcloglog, type ='response') >= 0.5, MHcloglog$data$fullbase == 'yes'))## Confusion Matrix and Statistics
##
##
## FALSE TRUE
## FALSE 329 120
## TRUE 26 71
##
## Accuracy : 0.7326
## 95% CI : (0.6934, 0.7693)
## No Information Rate : 0.6502
## P-Value [Acc > NIR] : 2.310e-05
##
## Kappa : 0.3368
##
## Mcnemar's Test P-Value : 1.396e-14
##
## Sensitivity : 0.9268
## Specificity : 0.3717
## Pos Pred Value : 0.7327
## Neg Pred Value : 0.7320
## Prevalence : 0.6502
## Detection Rate : 0.6026
## Detection Prevalence : 0.8223
## Balanced Accuracy : 0.6492
##
## 'Positive' Class : FALSE
##
Ta có hàm hồi quy:
\(cloglog(\pi) = -1,345 + 0,7222prefer + 1,3768recreation\)
MHprobit <- glm( fullbase ~ prefer + recreation , family= binomial( link = 'probit'), data=h)
summary(MHprobit)##
## Call:
## glm(formula = fullbase ~ prefer + recreation, family = binomial(link = "probit"),
## data = h)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.75060 0.07171 -10.468 < 2e-16 ***
## preferyes 0.57257 0.13500 4.241 2.22e-05 ***
## recreationyes 1.18263 0.15334 7.712 1.24e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 706.89 on 545 degrees of freedom
## Residual deviance: 616.18 on 543 degrees of freedom
## AIC: 622.18
##
## Number of Fisher Scoring iterations: 4
## [1] 0.1894331
confusionMatrix( table( predict(MHprobit, type ='response') >= 0.5, MHprobit$data$fullbase == 'yes'))## Confusion Matrix and Statistics
##
##
## FALSE TRUE
## FALSE 329 120
## TRUE 26 71
##
## Accuracy : 0.7326
## 95% CI : (0.6934, 0.7693)
## No Information Rate : 0.6502
## P-Value [Acc > NIR] : 2.310e-05
##
## Kappa : 0.3368
##
## Mcnemar's Test P-Value : 1.396e-14
##
## Sensitivity : 0.9268
## Specificity : 0.3717
## Pos Pred Value : 0.7327
## Neg Pred Value : 0.7320
## Prevalence : 0.6502
## Detection Rate : 0.6026
## Detection Prevalence : 0.8223
## Balanced Accuracy : 0.6492
##
## 'Positive' Class : FALSE
##
Ta có hàm hồi quy:
\(probit(\pi) = -0,7506 + 0,57257prefer + 1,18263recreation\)
AIC <- c(622.33,620.99,622.18)
Brierscore <- c(0.1894667,0.1890734,0.1894331)
Deviance <- c( 616.33, 614.99, 616.18)
confusionMatrix <- c(0.7326 ,0.7326 ,0.7326 )
MH <- c('logit','cloglog','probit')
BangKetQua <- data.frame(MH, confusionMatrix, Deviance, Brierscore, AIC)
BangKetQua## MH confusionMatrix Deviance Brierscore AIC
## 1 logit 0.7326 616.33 0.1894667 622.33
## 2 cloglog 0.7326 614.99 0.1890734 620.99
## 3 probit 0.7326 616.18 0.1894331 622.18
## Analysis of Deviance Table
##
## Model: binomial, link: cloglog
##
## Response: fullbase
##
## Terms added sequentially (first to last)
##
##
## Df Deviance Resid. Df Resid. Dev Pr(>Chi)
## NULL 545 706.89
## prefer 1 27.565 544 679.32 1.519e-07 ***
## recreation 1 64.333 543 614.99 1.050e-15 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Giả thuyết H0: mô hình không phù hợp với dữ liệu điều tra
Ta có các p_value đều bé hơn 0,05, nên bác bỏ giả thuyết H0, mô hình trên là phù hợp.
Kết quả từ mô hình cloglog cho thấy biến fullbase chịu ảnh hưởng từ 2 biến độc lập là prefer và recreation. Trong đó:
preferyes: người có nhà nằm trong khu trung tâm của thành phố
recreationyes: nhà có phòng giải trí
Với giả thuyết các yếu tố khác không đổi, ta có tác động của từng biến lên biến fullbase:
Người có nhà nằm ở khu vực trung tâm thành phố có tỷ lệ tầng hầm được trang bị hoàn thiện cao hơn người có nhà không nằm người khu vực trung tâm thành phố.
Nhà có phòng giải trí có tỷ lệ tầng hầm được trang bị hoàn thiện cao hơn nhà không có phòng giải trí.
##
## Call:
## glm(formula = bedrooms ~ price + stories, family = poisson(link = "log"),
## data = h)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 7.886e-01 7.250e-02 10.878 < 2e-16 ***
## price 2.085e-06 9.895e-07 2.107 0.03513 *
## stories 8.312e-02 3.024e-02 2.748 0.00599 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for poisson family taken to be 1)
##
## Null deviance: 99.168 on 545 degrees of freedom
## Residual deviance: 78.755 on 543 degrees of freedom
## AIC: 1697.1
##
## Number of Fisher Scoring iterations: 4
Ta thấy biến bedrooms chịu ảnh hưởng bởi 2 biến price và stories. Trong đó:
bedroom: số phòng ngủ trong nhà
price: giá bán nhà
stories: số tầng (không tính tầng hầm)
Ta có hàm hồi quy:
\(log(\frac{\mu(x)}{t}) = 0,7886 + 0,08312stories\) \(+ 2,085*10^{-6}price\)
Trong đó \(\frac{\mu(x)}{t}\) là tỉ lệ số phòng ngủ trung bình của những ngôi nhà có cùng số tầng và mức giá bán.