NORMAL DISTRIBUTION(PHÂN PHỐI CHUẨN)

Phân phối chuẩn, còn gọi là phân phối Gauss hay (Hình chuông Gauss), là một phân phối xác suất cực kì quan trọng trong nhiều lĩnh vực. Nó là họ phân phối có dạng tổng quát giống nhau, chỉ khác tham số vị trí (giá trị trung bình μ) và tỉ lệ (phương sai σ2).

Phân phối chuẩn được đặc trưng bởi hai tham số là giá trị kỳ vọng µ (Muy) còn được hiểu là giá trị trung bình, và độ lệch tiêu chuẩn σ (Sigma). Phân phối chuẩn tắc (standard normal distribution) là phân phối chuẩn với giá trị trung bình (μ) bằng 0 và độ lệch chuẩn (σ) bằng 1. Trong khi giá trị µ là mức trung bình của tất cả các dữ liệu đang nghiên cứu thì σ phản ánh mức độ đồng đều của các dữ liệu này.

Phân phối chuẩn còn được gọi là đường cong chuông (bell curve) vì đồ thị của mật độ xác suất có dạng chuông.

Phân phối chuẩn là một trong các phân phối xác suất quan trọng nhất của toán thống kê, phản ánh giá trị và mức độ phân bố của các dữ liệu đang nghiên cứu. Thế giới tự nhiên, cũng như nhiều các quy luật kinh tế xã hội tuân theo luật phân phối chuẩn này, điển hình như: Chỉ số thông minh IQ, chiều cao, cân nặng, chiều dài giấc ngủ của con người, sự biến động giá trị cổ phiếu trên thị trường chứng khoán, hay mức thu nhập người lao động…

Để kiểm định được một tập dữ liệu hoặc biến ngẫu nhiên liên tục có tuân theo phân phối chuẩn hay không là cực kỳ quan trọng, bài viết đưa ra phương pháp kiểm định biến phân phối chuẩn bằng kỹ thuật sử dụng QQPlot (Quantile-Quantile Plot).

Một biến ngẫu nhiên liên tục x nếu tuân theo phân phối chuẩn, được giả định rằng các giá trị của biến x sẽ nằm phân phối gần với đường tham chiếu lệch với trục Ox một góc 45 độ.

Sử dụng thư viện ggplot2 để trực quan hóa, ước lượng sử dụng độ tin cậy 95% cho bộ dữ liệu xung quanh đường thẳng có phân phối chuẩn

KHỞI TẠO DỮ LIỆU

Dữ liệu gồm 400 quan sát với 2 biến Nam và Nữ (Factor). Sử dụng hàm rnorm() để tạo ra bộ số gồm 400 giá trị theo cân nặng của Nam và Nữ với phân phối chuẩn.

set.seed(1234)
wdata = data.frame(
  sex = factor(rep(c("F", "M"), each=200)),
  weight = c(rnorm(200, 55), rnorm(200, 58))
)
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.0.2
theme_set(
  theme_minimal() +
    theme(legend.position = "top")
)

TRỰC QUAN DỮ LIỆU

sử dụng hàm stat_qq() để mô phỏng 2 phân phối từ bộ dữ liệu trên

KIỂM ĐỊNH

Sử dụng thư viện ggpubr() để kiểm định tập dữ liệu trên có phân phối chuẩn hay không, mặc định thư viện này chưa hàm ggqqplot() sẽ hiển thị khoảng tin cậy (Confidential Interval) 95%

## Warning: package 'ggpubr' was built under R version 4.0.2

Nhìn vào sự tập trung của các điểm dữ liệu, ta thấy 2 biến Nam và Nữ có dữ liệu nằm phân phối khá sát với đường thẳng tham chiếu và đều nằm vào khoảng tin cậy 95%, do đó ta có thể kết luận, 2 biến Nam và Nữ có dữ liệu tuân theo phân phối chuẩn.

Hoàn toàn chúng ta có thể lọc dữ liệu của các biến của các bộ dữ liệu thu thập được và kiểm định phân phối chuẩn bằng hàm ggqqplot() trong thư viện qqgubr()

Một số phương pháp kiểm định phân phối chuẩn khác:

 + Kiểm định **Anderson-Darling** (thư viện nortest()) 
 + Kiểm định **Shapiro-Wilk**
 + Kiểm định **Kolmogorov-Smirnov**( người Nga).