Trình bày định nghĩa và phân loại của thống kê. (1,5 điểm) Định nghĩa của Thống kê: Thống kê là một lĩnh vực trong toán học và khoa học thông tin, chuyên nghiên cứu về cách thu thập, phân tích, giải thích, hiển thị và tổng hợp dữ liệu. Mục tiêu chính của thống kê là rút ra những kết luận có ý nghĩa từ dữ liệu, giúp hiểu rõ hơn về các quy luật tự nhiên, xã hội hoặc kinh tế.
Phân loại của Thống kê:
Thống kê Mô tả (Descriptive Statistics): Cung cấp thông tin mô tả về dữ liệu mà không kết luận hoặc đưa ra dự đoán. Các phương pháp thống kê mô tả bao gồm độ trung bình, phương sai, phần trăm, đồ thị và biểu đồ.
Thống kê Suy luận (Inferential Statistics): Sử dụng dữ liệu mẫu để đưa ra kết luận hoặc dự đoán về tổng thể. Các phương pháp thống kê suy luận bao gồm kiểm định giả thuyết, ước lượng khoảng tin cậy và phân tích biến thể.
Thống kê Phân tích (Analytical Statistics): Liên quan đến việc phân tích mối quan hệ giữa các biến số, điều này giúp hiểu rõ hơn về sự tương tác và tác động của chúng. Các phương pháp này thường bao gồm hồi quy và phân tích biến thể.
Thống kê Nguyên lý (Statistical Principles): Bao gồm các nguyên lý cơ bản và quy tắc mà người nghiên cứu thống kê cần tuân theo khi thu thập và xử lý dữ liệu, như nguyên tắc ngẫu nhiên và sự biểu diễn chính xác của mẫu.
Thống kê đóng vai trò quan trọng trong nhiều lĩnh vực, từ nghiên cứu khoa học đến quản lý doanh nghiệp và định chính chính trị.
Phân vị là các điểm cắt chia phạm vi phân phối xác suất thành các khoảng liên tục với xác suất bằng nhau hoặc chia các quan sát trong một mẫu theo cùng một cách. Có một lượng tử ít hơn số lượng nhóm được tạo. Do đó, tứ phân vị là ba điểm cắt sẽ chia một tập dữ liệu thành bốn nhóm có kích thước bằng nhau.
Trung bình là một số duy nhất được lấy làm đại diện cho một danh sách các số. Các khái niệm khác nhau về trung bình được sử dụng trong các bối cảnh khác nhau. Thông thường “trung bình” chỉ số trung bình số học , tổng của các số chia cho số lượng đang được tính trung bình. Trong thống kê , trung bình , trung vị và chế độ đều được gọi là thước đo của xu hướng trung tâm và trong sử dụng thông tục, bất kỳ trong số này có thể được gọi là giá trị trung bình.
Phương sai là kỳ vọng của độ lệch bình phương của một biến ngẫu nhiên so với trung bình tổng thể hoặc trung bình mẫu của nó.
Độ lệch chuẩn là thước đo lượng biến thiên hoặc độ phân tán của một tập hợp các giá trị. Độ lệch chuẩn thấp chỉ ra rằng các giá trị có xu hướng gần với giá trị trung bình (còn được gọi là giá trị kỳ vọng ) của tập hợp, trong khi độ lệch chuẩn cao chỉ ra rằng các giá trị được trải ra trên một phạm vi rộng hơn.
❖ Thiết lập mô hình hàm giá đất tổng quát: Y = α0 + α1H + α2G + α3T + α4R Trong đó: + Y: Giá đất (triệu đồng/m2 ) + H: Độ rộng hẻm (m) + G: Khoảng cách từ thửa đất đến đường giao thông đã được đặt tên hoặc đã được quy định trong BGĐ (m) + T: Khoảng cách từ thửa đất đến khu vực trung tâm xã hoặc chợ, trường học (m) + R: Độ rộng mặt tiền thửa đất (m) + α0 là hệ số tự do. + α1 đến α4 là các hệ số các biến độc lập tương ứng theo thứ tự H, G, T, R ❖ Giả thiết mối quan hệ giữa các biến: + Độ rộng hẻm (H): những thửa đất có độ rộng hẻm lớn, giao thông thuận lợi thì giá đất sẽ cao hơn, nên kỳ vọng là (+) + Khoảng cách từ thửa đất đến đường giao thông đã được đặt tên hoặc đã được quy định trong BGĐ (G): những thửa đất xa đường giao thông hơn thì giá đất sẽ thấp hơn, nên kỳ vọng là (-) + Khoảng cách từ thửa đất đến khu vực trung tâm xã hoặc chợ, trường học (T): những thửa đất xa khu vực trung tâm xã, chợ, trường học hơn thì giá đất sẽ thấp hơn, nên kỳ vọng là (-) + Độ rộng mặt tiền thửa đất (R): những thửa đất có mặt tiền rộng hơn thì giá đất sẽ cao hơn, nên kỳ vọng là (+) YÊU CẦU:
Nhập dữ liệu vào R, tạo dataframe lưu tên stt. giadat (trong đó, stt là số thứ tự của sinh viên,ghi 2 chữ số. Ví dụ: sinh viên có số thứ tự 01 sẽ tạo dataframe với tên là giadat.01). (1 điểm)
giadat.01 <- data.frame( STT = 1:20, Y = c(5000000, 5100000, 5200000, 5200000, 5300000, 6000000, 6000000, 6000000, 6000000, 6000000, 6100000, 6100000, 6200000, 6200000, 6300000, 6300000, 6300000, 6300000, 6300000, 6400000), H = c(2.5, 2.5, 2.3, 3.4, 2.8, 5.2, 2.9, 5.0, 3.0, 2.0, 2.0, 1.5, 3.7, 3.7, 2.0, 3.0, 2.0, 3.0, 2.2, 2.6), G = c(2073.0, 1653.0, 700.0, 202.0, 406.0, 2080.0, 1095.0, 80.0, 1740.0, 36.0, 56.0, 342.0, 296.0, 253.0, 1057.0, 947.0, 120.0, 295.0, 320.0, 250.0), T = c(5298.0, 5500.0, 3598.0, 3590.0, 1984.0, 5818.0, 4526.0, 675.0, 5177.0, 700.0, 1600.0, 600.0, 3178.0, 3088.0, 2315.0, 1100.0, 3790.0, 3569.0, 1007.0, 1256.0), R = c(3.0, 5.1, 3.2, 5.0, 3.0, 3.0, 5.0, 5.0, 4.0, 4.7, 3.0, 4.0, 5.0, 5.0, 5.0, 4.0, 5.0, 6.0, 5.0, 6.9) )
print(giadat.01)
Tính toàn 4 số đo thống kê số học số học sau đây: phân vị, trung bình, phương sai, và sai số chuẩn cho biến giá đất (Y) trong cơ sở dữ liệu được cho ở trên. (1 điểm)
phân_vị <- quantile(giadat.01\(Y, probs = c(0.25, 0.5, 0.75)) trung_bình <- mean(giadat.01\)Y) phương_sai <- var(giadat.01\(Y) sai_số_chuẩn <- sd(giadat.01\)Y)
cat(“Phân vị 25%:”, phân_vị[1], “”) cat(“Phân vị 50% (trung bình):”, phân_vị[2], “”) cat(“Phân vị 75%:”, phân_vị[3], “”) cat(“Trung bình:”, trung_bình, “”) cat(“Phương sai:”, phương_sai, “”) cat(“Sai số chuẩn:”, sai_số_chuẩn, “”)
Vẽ biểu đồ tần suất (histogram) thể hiện tần suất giá đất (Y) theo dạng cột với các thông số cơ bản như sau: biểu đồ cột nên màu vàng, đường viền màu đen, có thể hiện được đường xác suất màu đỏ. (1 điểm)
if (!requireNamespace(“ggplot2”, quietly = TRUE)) { install.packages(“ggplot2”) }
library(ggplot2)
ggplot(giadat.01, aes(x = Y, fill = factor(1))) + geom_histogram(color = “black”, bins = 10) + geom_density(aes(y = ..count.. * (diff(range(Y))/10)), color = “red”) + labs(title = “Biểu đồ Histogram Tần suất Giá đất”, x = “Giá đất (triệu đồng/m2)”, y = “Tần suất”) + scale_fill_manual(values = “yellow”) + theme_minimal()
Xây dựng mô hình hồi quy tuyến tính đa biến (Y = α0 + α1H + α2G + α3T + α4R) xác định giá đất ở nông thôn của huyện A:
- Xác định được α0, α1, α2, α3, α4 và mô hình hồi quy. (1 điểm)
mymodel <- lm(Y ~ H + G + T + R, data = giadat.01)
summary(mymodel)
print(summary(mymodel))
alpha_0 <- coef(mymodel)[1] alpha_1 <- coef(mymodel)[2] alpha_2 <- coef(mymodel)[3] alpha_3 <- coef(mymodel)[4] alpha_4 <- coef(mymodel)[5]
cat(“Hệ số α0:”, alpha_0, “”) cat(“Hệ số α1:”, alpha_1, “”) cat(“Hệ số α2:”, alpha_2, “”) cat(“Hệ số α3:”, alpha_3, “”) cat(“Hệ số α4:”, alpha_4, “”)
- Đánh giá mức ý nghĩa thống kê của các biến số hồi quy (1 điểm)
print(summary(mymodel)$coefficients)
cat(“Mức ý nghĩa thống kê của các biến số:”) cat(“Hệ số α0 (Intercept):”, ifelse(summary(mymodel)\(coefficients[1, 4] < 0.05, "Ý nghĩa thống kê", "Không ý nghĩa thống kê"), "\n") cat("Hệ số α1 (H): ", ifelse(summary(mymodel)\)coefficients[2, 4] < 0.05, “Ý nghĩa thống kê”, “Không ý nghĩa thống kê”), “”) cat(“Hệ số α2 (G):”, ifelse(summary(mymodel)\(coefficients[3, 4] < 0.05, "Ý nghĩa thống kê", "Không ý nghĩa thống kê"), "\n") cat("Hệ số α3 (T): ", ifelse(summary(mymodel)\)coefficients[4, 4] < 0.05, “Ý nghĩa thống kê”, “Không ý nghĩa thống kê”), “”) cat(“Hệ số α4 (R):”, ifelse(summary(mymodel)$coefficients[5, 4] < 0.05, “Ý nghĩa thống kê”, “Không ý nghĩa thống kê”), “”)
- Đánh giá và giải thích mức thích hợp (độ mạnh) của mô hình hồi quy sử dụng các hệ số R2 (R bình phương) và R2 điều chỉnh.
R-squared (R²):
R-squared là tỉ lệ phương sai của biến phụ thuộc (Y) mà mô hình giải thích được. Nó được tính bằng cách chia tổng phương sai giải thích bởi mô hình cho tổng phương sai ban đầu của biến phụ thuộc. Giá trị R-squared nằm trong khoảng 0 đến 1. Giá trị càng cao, mô hình càng tốt (nếu R² = 1, mô hình hoàn hảo).
R-squared điều chỉnh:
R-squared điều chỉnh điều chỉ giá trị R-squared để có ít biến độc lập hơn. Nó thường được sử dụng khi có nhiều biến độc lập trong mô hình. Giá trị R-squared điều chỉnh có thể giúp tránh hiện tượng “overfitting” (quá mức khớp) và đánh giá mức độ phù hợp của mô hình khi thêm biến độc lập.
print(summary(mymodel)$adj.r.squared)