THỐNG KÊ ỨNG DỤNG

                                                                                  GVMH: TS. HUỲNH THANH HIỀN

Câu 1:

Vẽ biểu đồ tần suất (histogram) thể hiện tần suất giá đất (Y) theo dạng cột với các thông số cơ bản như sau: biểu đồ cột nên màu đen, đường viền màu đỏ, tên biểu đồ “Phân phối giá đất (triệu đồng/m2)”, có thể hiện xác suất màu xanh biển

Câu 2:

  • Định nghĩa Phân vị (Percentile): là giá trị mà một phân phối xác suất chia thành các phần trăm tương ứng. Ví dụ, phân vị thứ p là giá trị mà có p% dữ liệu nhỏ hơn nó và (100 - p)% dữ liệu lớn hơn nó.

    Phân vị 25 50 75 của giá đất Y trong cơ sở dữ liệu trên là:

##      25%      50%      75% 
## 10925000 12150000 15125000
  • Định nghĩa Trung bình (Mean): Trong tính toán xác suất, trung bình thường được hiểu là giá trị kỳ vọng của một biến ngẫu nhiên. Đối với một phân phối xác suất liên tục, trung bình là tổng tích phân của biến ngẫu nhiên nhân với hàm mật độ xác suất tại từng giá trị, trong khoảng giới hạn của biến.

    Giá trị trung bình của giá đất Y trong cơ sở dữ liệu trên là:

## [1] 12847500
  • Định nghĩa Phương sai (Variance): Phương sai là một độ đo của sự biến đổi của một biến ngẫu nhiên. Nó đo lường mức độ mà các giá trị của biến ngẫu nhiên phân tán xung quanh giá trị kỳ vọng (trung bình). Phương sai được tính bằng cách tính trung bình của bình phương của độ lệch của mỗi giá trị từ giá trị kỳ vọng.

    Phương sai của giá đất Y trong cơ sở dữ liệu trên là:

## [1] 1.16441e+13
  • Định nghĩa Độ lệch chuẩn (Standard Deviation): Độ lệch chuẩn là căn bậc hai của phương sai. Nó là một độ đo của sự biến đổi của biến ngẫu nhiên và được sử dụng để đo lường độ rộng của phân phối xác suất. Độ lệch chuẩn là căn bậc hai của phương sai và có cùng đơn vị với biến ngẫu nhiên.

    Độ lệch chuẩn của giá đất Y trong cơ sở dữ liệu trên là:

## [1] 3412345
  • Định nghĩa Sai số chuẩn (Standard Error): Sai số chuẩn là một chỉ số đo lường sự không chắc chắn trong việc ước lượng thống kê. Nó đại diện cho sai số tiêu chuẩn giữa giá trị ước lượng và giá trị thực tế trong một mẫu dữ liệu. Sai số chuẩn thường được tính bằng cách chia độ lệch chuẩn cho căn bậc hai của số lượng quan sát trong mẫu.

    Sai số chuẩn của giá đất Y trong cơ sở dữ liệu trên là:

##  [1] 2756.810 3162.278 3937.004 3000.000 3949.684 3435.113 4049.691 3937.004
##  [9] 4593.474 3872.983 3271.085 2626.785 4626.013 3646.917 3949.684 3271.085
## [17] 3331.666 3687.818 2828.427 3563.706 3464.102 3872.983 3391.165 3435.113
## [25] 3949.684 3464.102 3646.917 4242.641 2549.510 3435.113 3224.903 3316.625
## [33] 3646.917 4183.300 3507.136 3781.534 3741.657 3464.102 3449.638 2863.564

Câu 3:

  • Xây dựng mô hình hồi quy tuyến tính đa biến (Y = α0 + α1H + α2G + α3T + α4R) xác định giá đất ở nông thôn huyên A
## 
## Call:
## lm(formula = Y ~ H + G + T + R, data = df)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -4928691 -1335340    29114  1517822  4226838 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 10657951.6  1479279.2   7.205 2.08e-08 ***
## H             412436.9    87264.8   4.726 3.66e-05 ***
## G              -6097.4     1856.4  -3.285  0.00232 ** 
## T               -942.3      417.6  -2.256  0.03041 *  
## R             364948.1   167026.5   2.185  0.03567 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2046000 on 35 degrees of freedom
## Multiple R-squared:  0.6773, Adjusted R-squared:  0.6404 
## F-statistic: 18.37 on 4 and 35 DF,  p-value: 3.256e-08

Giá trị α0, α1, α2, α3, α4 lần lượt là 10657951.6, 412436.9, -6097.4, -942.3 và 364948.1

Như vậy mô hình hồi quy tuyến tính đa biến xác định giá đất ở nông thôn huyên A có dạng:

Y = 10657951.6 + 412436.9xH -6097.4xG -942.3xT + 364948.1xR

Khi P-value < 0.001 (***): Hệ số có ý nghĩa thống kê rất cao.

Khi 0.001 ≤ P-value < 0.01 (**): Hệ số có ý nghĩa thống kê cao.

Khi 0.01 ≤ P-value < 0.05 (*): Hệ số có ý nghĩa thống kê đáng kể.

Khi 0.05 ≤ P-value < 0.1 (.): Hệ số có ý nghĩa thống kê có ý nghĩa hơn mức ý nghĩa thông thường (0.1).

Khi P-value ≥ 0.1 (không có ký hiệu): Hệ số không có ý nghĩa thống kê đáng kể.

Trong kết quả hồi quy, (Intercept) là giá trị ước tính của hệ số chặn (intercept coefficient) trong mô hình hồi quy tuyến tính. Nó tương đương với giá trị của biến phụ thuộc (Y) khi tất cả các biến độc lập (H, G, T, R) đều bằng 0. (Intercept) có giá trị là 10657951.6. Điều này có nghĩa là khi tất cả các biến độc lập trong mô hình (H, G, T, R) đều bằng 0, giá trị của biến phụ thuộc (Y) được ước tính là 10657951.6. Đây là giá trị khởi điểm của đường hồi quy.

Như vậy, trong trường hợp này độ rộng hẻm (H) có ý nghĩa thống kê rất cao, Khoảng cách từ thửa đất đến đường giao thông đã được đặt tên hoặc đã được quy định trong BGĐ (G) có ý nghĩa thống kê cao; Khoảng cách từ thửa đất đến khu vực trung tâm xã hoặc chợ, trường học (T) và Độ rộng mặt tiền thửa đất (R) có ý nghĩa thống kê đáng kể

  • Đánh giá và giải thích mức thích hợp (độ mạnh) của mô hình hồi quy sử dụng các hệ số R2 (R bình phương) và R2 điều chỉnh. Sử dụng các hệ số R-squared (R2) và R-squared điều chỉnh (adjusted R2) để đánh giá mức thích hợp và độ mạnh của mô hình hồi quy. Giá trị R-squared thể hiện phần trăm phương sai của biến phụ thuộc mà mô hình giải thích được, trong khi R-squared điều chỉnh điều chỉnh giá trị R-squared theo số lượng biến độc lập và kích thước mẫu.
## R-squared: 0.6773102
## Adjusted R-squared: 0.6404314
  • R-squared (R²): Đây là một độ đo đánh giá mức độ phù hợp của mô hình hồi quy tuyến tính. Nó đo lường tỷ lệ phương sai của biến phụ thuộc (Y) mà mô hình có thể giải thích được. Giá trị R-squared nằm trong khoảng từ 0 đến 1, và càng gần 1 thì mô hình càng phù hợp hơn. Kết quả trên, R-squared có giá trị là 0.6773102, cho thấy mô hình giải thích được khoảng 67.73% sự biến động của biến phụ thuộc (Y).
  • Adjusted R-squared (R² điều chỉnh): Đây là một phiên bản điều chỉnh của R-squared, nhằm điều chỉnh cho số lượng biến độc lập và kích thước mẫu. Nó đánh giá mức độ phù hợp của mô hình hồi quy dựa trên sự cân nhắc giữa độ phù hợp và độ đơn giản của mô hình. Giá trị Adjusted R-squared cũng nằm trong khoảng từ 0 đến 1, và càng gần 1 thì mô hình càng phù hợp hơn. Kết quả trên, Adjusted R-squared có giá trị là 0.6404314, cho thấy mô hình giải thích được khoảng 64.04% sự biến động của biến phụ thuộc (Y) sau khi điều chỉnh cho số lượng biến độc lập và kích thước mẫu.
Giá trị R-squared và Adjusted R-squared được sử dụng để đánh giá mức độ giải thích của mô hình hồi quy, với giá trị gần 1 được coi là mô hình tốt. Tuy nhiên, nó không cho biết về mức độ chính xác của dự đoán của mô hình.

Câu 4:

Có nhiều hướng nghiên cứu trong lĩnh vực quản lý đất đai và bất động sản mà thống kê có thể được ứng dụng. Dưới đây là một số hướng nghiên cứu phổ biến và một hướng nghiên cứu cụ thể có thể được trình bày và phân tích:

- Phân tích giá đất: Sử dụng phương pháp thống kê để phân tích và dự đoán giá đất dựa trên các yếu tố như vị trí, diện tích, tiện ích xung quanh, dữ liệu thị trường, và các yếu tố kinh tế xã hội khác. Các phương pháp thống kê như hồi quy tuyến tính, mô hình hỗn hợp, và cây quyết định có thể được áp dụng để xây dựng mô hình dự báo giá đất.

- Phân tích rủi ro đầu tư bất động sản: Sử dụng các phương pháp thống kê để đánh giá rủi ro đầu tư bất động sản, bao gồm phân tích dữ liệu lịch sử, mô phỏng Monte Carlo, và các mô hình phân phối xác suất. Các phương pháp này có thể giúp các nhà đầu tư và quản lý hiểu rõ hơn về khả năng sinh lời và rủi ro của các dự án bất động sản.

- Phân tích sự phát triển đô thị: Sử dụng thống kê để nghiên cứu và dự đoán sự phát triển đô thị, bao gồm phân tích tăng trưởng dân số, biến đổi cơ cấu dân số, mô hình hóa sự thay đổi về quy mô đô thị và tiêu chuẩn sống. Các phương pháp như mô hình không gian thời gian (spatio-temporal models) và phân tích chuỗi thời gian (time series analysis) có thể được sử dụng để nghiên cứu các xu hướng đô thị hóa.

- Phân tích tác động môi trường và bất động sản: Sử dụng phương pháp thống kê để đánh giá tác động của yếu tố môi trường (như ô nhiễm không khí, nước, tiếng ồn) đến giá trị bất động sản. Các phương pháp như mô hình hồi quy định lượng (quantile regression) và phân tích dữ liệu địa lý (geospatial analysis)

Trong đó, phân tích sự phát triển đô thị là quá trình nghiên cứu và dự đoán sự thay đổi trong quy mô và cấu trúc của đô thị. Nó nhằm hiểu sự phát triển đô thị hiện tại và tương lai, cung cấp thông tin quan trọng để quy hoạch đô thị, phát triển hạ tầng, và đưa ra quyết định chính sách phù hợp. Thống kê được sử dụng trong phân tích sự phát triển đô thị để nắm bắt xu hướng, đánh giá tác động và dự đoán phát triển đô thị.

Một phương pháp phân tích phổ biến trong phân tích sự phát triển đô thị là mô hình không gian thời gian (spatio-temporal models). Mô hình không gian thời gian kết hợp thông tin không gian và thông tin thời gian để hiểu sự phát triển đô thị theo thời gian và không gian. Bằng cách sử dụng dữ liệu không gian và thời gian, mô hình không gian thời gian có thể ước lượng xu hướng, tốc độ và mô phỏng sự phát triển đô thị.

Ngoài ra, phân tích chuỗi thời gian (time series analysis) cũng được sử dụng trong phân tích sự phát triển đô thị. Phân tích chuỗi thời gian giúp xác định các mô hình, xu hướng và chu kỳ phát triển đô thị dựa trên dữ liệu thời gian. Các phương pháp như phân tích hàm tỷ lệ trung bình (mean ratio analysis), mô hình ARIMA (Autoregressive Integrated Moving Average) và mô hình nén dữ liệu thời gian (time series compression) có thể được áp dụng để nghiên cứu sự phát triển đô thị.

Trong quá trình phân tích sự phát triển đô thị, các yếu tố quan trọng như tăng trưởng dân số, biến đổi cơ cấu dân số, diện tích đô thị, tiêu chuẩn sống, và hạ tầng cần được xem xét. Thống kê cung cấp công cụ và phương pháp để thu thập, phân tích và tạo mô hình cho các yếu tố này, từ đó giúp hiểu và dự đoán sự phát triển đô thị trong tương lai.

Một ứng dụng cụ thể của phân tích sự phát triển đô thị có thể là nghiên cứu sự mở rộng của khu vực đô thị trong một thành phố. Bằng cách thu thập dữ liệu về diện tích đất, dân số, tiêu chuẩn sống và các yếu tố khác trong quá khứ, ta có thể áp dụng các phương pháp thống kê để phân tích xu hướng mở rộng đô thị. Dựa trên kết quả phân tích, ta có thể dự đoán tiềm năng mở rộng đô thị trong tương lai và đưa ra các quyết định về quy hoạch đô thị và phát triển hạ tầng phù hợp.</div>