Hãy cho biết định nghĩa phương sai, sai số chuẩn và độ lệch chuẩn? (1 điểm)
Phương sai là…..
vdafaddfa # fadfafa#
fadsdafa
váddfasfa
Độ lệch chuẩn là…..
vdafaddfa # fadfafa#
fadsdafa
váddfasfa
Sai số chuẩn là……
vdafaddfa # fadfafa#
fadsdafa
váddfasfa # ## Câu 2 #### Nhập dữ giá đất ở nông thôn huyện Trảng
Bom, tỉnh Đồng Nai. Phân tích thống kê mô tả số học: phân vị, trung
bình, phương sai, độ lệch chuẩn, sai số chuẩn cho biến giá đất
(biến Y). (2 điểm)
# BẮT ĐẦU VIẾT MÃ CODE R TỪ ĐÂY, sau 3 dầu giống như dầu huyền ``` bên trên và chữ R nằm trong ngoặc nhọn {R} (câu này chỉ là giải thích cho học viên hiểu, không ghi trong bài làm)
# Ví dụ cụ thể trong lĩnh vực QLDD, dự báo giá đất
# Phân tích giá đất...
# Nhập dữ liệu điều tra từ Excel sang R
library(readxl)
nhom1 <- read_excel("GIADAT.xlsx", sheet = "Nhom 1")
## New names:
## • `` -> `...28`
## • `` -> `...29`
## • `` -> `...30`
## • `` -> `...31`
## • `` -> `...32`
## • `` -> `...33`
# Làm gọn dữ liệu, chỉ lấy các cột thông tin cần thiết
# xem tên và thứ tự các cột bằng lệnh names()
names(nhom1)
## [1] "LKBD" "MA_DUONG" "a" "TENCSD" "DIADIEM" "TO"
## [7] "THUA" "DTICH" "LOAIDAT" "NAMCN" "VTRI" "TENDUONG"
## [13] "TENDOAN" "GIA_BĐS" "GIA_DAT1" "Y" "H" "G"
## [19] "T" "R" "AN" "D1" "D2" "D3"
## [25] "D4" "D5" "D6" "...28" "...29" "...30"
## [31] "...31" "...32" "...33"
# Trích dữ liệu từ cột thứ 16 đến cột 20, lưu lại cùng tên
nhom1 <- nhom1[,16:20]
# Hiển thị dữ liệu (dataframe) được rút gọn
print.data.frame(nhom1, row.names = T)
## Y H G T R
## 1 21400000 14.0 0 200 7.0
## 2 21200000 14.0 0 420 7.2
## 3 17000000 4.6 87 187 3.0
## 4 16800000 5.5 285 290 10.0
## 5 16500000 5.5 350 350 6.0
## 6 16700000 5.9 288 370 5.0
## 7 16100000 5.8 89 412 4.0
## 8 16100000 5.9 159 483 10.0
## 9 15600000 4.9 76 500 6.0
## 10 15400000 4.9 220 720 6.0
## 11 15500000 4.2 360 572 8.0
## 12 20900000 14.0 0 1163 7.0
## 13 20800000 14.0 0 1295 7.0
## 14 13500000 4.2 95 1050 4.0
## 15 13500000 4.2 116 1073 5.0
## 16 13500000 4.2 300 1719 8.0
## 17 13300000 4.2 259 1218 5.0
## 18 13300000 4.2 226 1183 5.0
## 19 13300000 3.7 155 1110 6.0
## 20 13100000 6.0 55 1321 7.0
## 21 13000000 4.2 310 1260 10.0
## 22 12900000 6.0 135 1393 7.0
## 23 13000000 3.7 305 1250 5.0
## 24 7800000 5.0 196 1432 5.0
## 25 7800000 5.5 225 1481 7.0
## 26 7800000 5.5 205 1464 5.0
## 27 7500000 4.0 237 1496 5.0
## 28 21400000 25.0 0 213 5.0
## 29 21300000 25.0 0 476 4.0
## 30 21100000 25.0 0 286 7.0
## 31 21300000 25.0 0 520 6.0
## 32 14800000 4.9 40 80 4.0
## 33 14800000 3.6 66 100 9.2
## 34 14800000 4.6 43 245 4.0
## 35 14700000 4.9 110 15 8.0
## 36 14000000 5.8 269 120 11.0
## 37 14500000 4.5 176 375 4.0
## 38 14400000 3.5 280 555 9.8
## 39 14300000 5.6 580 500 13.0
## 40 14300000 6.5 820 900 7.0
# Phân tích thống kê số học "giá đất"
# Load lên dataframe "nhom1" sử dụng để phân tích
attach(nhom1)
## The following object is masked from package:base:
##
## T
# Tính phân vị
quantile(Y)
## 0% 25% 50% 75% 100%
## 7500000 13300000 14750000 16725000 21400000
# Các hàm R cho mô tả dữ liệu thống kê khác
# Tính giá trị trung bình (mean)
mean(Y)
## [1] 15225000
# Tính giá trị trung vị (median)
median(Y)
## [1] 14750000
# Tính phương sai (variance)
var(Y)
## [1] 1.448603e+13
# Tính độ lệch chuẩn (standard deviation)
sd(Y)
## [1] 3806051
# Standard error (tính sai số chuẩn)
sd(Y) / sqrt(length(Y))
## [1] 601789.5
Trung bình giá đất ở nông thôn của huyện Trảng Bom là… xxxx triệu trên 1 mét vuông….
Phân vị ….
# Tải thư viện ggplot2 để vẽ đồ thị
library(ggplot2)
ggplot(nhom1, aes(x = Y/1000000, fill = stat(count))) +
geom_histogram(color = "red", fill = "black") +
labs(title = "Phân phối giá đất (triệu đồng/m2)", x = "Giá đất", y = "Tần suất") +
scale_fill_gradient(low = "white", high = "blue") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5))
## Warning: `stat(count)` was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.