Câu 1

Hãy cho biết định nghĩa phương sai, sai số chuẩn và độ lệch chuẩn? (1 điểm)

Phương sai là…..
vdafaddfa # fadfafa#

fadsdafa
váddfasfa

Độ lệch chuẩn là…..

vdafaddfa # fadfafa#

fadsdafa
váddfasfa
Sai số chuẩn là……

vdafaddfa # fadfafa#

fadsdafa
váddfasfa # ## Câu 2 #### Nhập dữ giá đất ở nông thôn huyện Trảng Bom, tỉnh Đồng Nai. Phân tích thống kê mô tả số học: phân vị, trung bình, phương sai, độ lệch chuẩn, sai số chuẩn cho biến giá đất (biến Y). (2 điểm)

# BẮT ĐẦU VIẾT MÃ CODE R TỪ ĐÂY, sau 3 dầu giống như dầu huyền ``` bên trên và chữ R nằm trong ngoặc nhọn {R} (câu này chỉ là giải thích cho học viên hiểu, không ghi trong bài làm)

# Ví dụ cụ thể trong lĩnh vực QLDD, dự báo giá đất
# Phân tích giá đất...
# Nhập dữ liệu điều tra từ Excel sang R
library(readxl)
nhom1 <- read_excel("GIADAT.xlsx", sheet = "Nhom 1")
## New names:
## • `` -> `...28`
## • `` -> `...29`
## • `` -> `...30`
## • `` -> `...31`
## • `` -> `...32`
## • `` -> `...33`
# Làm gọn dữ liệu, chỉ lấy các cột thông tin cần thiết
# xem tên và thứ tự các cột bằng lệnh names()
names(nhom1)
##  [1] "LKBD"     "MA_DUONG" "a"        "TENCSD"   "DIADIEM"  "TO"      
##  [7] "THUA"     "DTICH"    "LOAIDAT"  "NAMCN"    "VTRI"     "TENDUONG"
## [13] "TENDOAN"  "GIA_BĐS"  "GIA_DAT1" "Y"        "H"        "G"       
## [19] "T"        "R"        "AN"       "D1"       "D2"       "D3"      
## [25] "D4"       "D5"       "D6"       "...28"    "...29"    "...30"   
## [31] "...31"    "...32"    "...33"
# Trích dữ liệu từ cột thứ 16 đến cột 20, lưu lại cùng tên
nhom1 <- nhom1[,16:20]

# Hiển thị dữ liệu (dataframe) được rút gọn
print.data.frame(nhom1, row.names = T)
##           Y    H   G    T    R
## 1  21400000 14.0   0  200  7.0
## 2  21200000 14.0   0  420  7.2
## 3  17000000  4.6  87  187  3.0
## 4  16800000  5.5 285  290 10.0
## 5  16500000  5.5 350  350  6.0
## 6  16700000  5.9 288  370  5.0
## 7  16100000  5.8  89  412  4.0
## 8  16100000  5.9 159  483 10.0
## 9  15600000  4.9  76  500  6.0
## 10 15400000  4.9 220  720  6.0
## 11 15500000  4.2 360  572  8.0
## 12 20900000 14.0   0 1163  7.0
## 13 20800000 14.0   0 1295  7.0
## 14 13500000  4.2  95 1050  4.0
## 15 13500000  4.2 116 1073  5.0
## 16 13500000  4.2 300 1719  8.0
## 17 13300000  4.2 259 1218  5.0
## 18 13300000  4.2 226 1183  5.0
## 19 13300000  3.7 155 1110  6.0
## 20 13100000  6.0  55 1321  7.0
## 21 13000000  4.2 310 1260 10.0
## 22 12900000  6.0 135 1393  7.0
## 23 13000000  3.7 305 1250  5.0
## 24  7800000  5.0 196 1432  5.0
## 25  7800000  5.5 225 1481  7.0
## 26  7800000  5.5 205 1464  5.0
## 27  7500000  4.0 237 1496  5.0
## 28 21400000 25.0   0  213  5.0
## 29 21300000 25.0   0  476  4.0
## 30 21100000 25.0   0  286  7.0
## 31 21300000 25.0   0  520  6.0
## 32 14800000  4.9  40   80  4.0
## 33 14800000  3.6  66  100  9.2
## 34 14800000  4.6  43  245  4.0
## 35 14700000  4.9 110   15  8.0
## 36 14000000  5.8 269  120 11.0
## 37 14500000  4.5 176  375  4.0
## 38 14400000  3.5 280  555  9.8
## 39 14300000  5.6 580  500 13.0
## 40 14300000  6.5 820  900  7.0
# Phân tích thống kê số học "giá đất"
# Load lên dataframe "nhom1" sử dụng để phân tích
attach(nhom1) 
## The following object is masked from package:base:
## 
##     T
# Tính phân vị
quantile(Y)
##       0%      25%      50%      75%     100% 
##  7500000 13300000 14750000 16725000 21400000
# Các hàm R cho mô tả dữ liệu thống kê khác
# Tính giá trị trung bình (mean)
mean(Y)
## [1] 15225000
# Tính giá trị trung vị (median)
median(Y) 
## [1] 14750000
# Tính phương sai (variance)
var(Y) 
## [1] 1.448603e+13
# Tính độ lệch chuẩn (standard deviation)
sd(Y) 
## [1] 3806051
# Standard error (tính sai số chuẩn)
sd(Y) / sqrt(length(Y)) 
## [1] 601789.5
# Tải thư viện ggplot2 để vẽ đồ thị
library(ggplot2)

ggplot(nhom1, aes(x = Y/1000000, fill = stat(count))) +
  geom_histogram(color = "red", fill = "black") +
  labs(title = "Phân phối giá đất (triệu đồng/m2)", x = "Giá đất", y = "Tần suất") +
  scale_fill_gradient(low = "white", high = "blue") +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5))
## Warning: `stat(count)` was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.