Bài tập về nhà tuần 1:

Mô phỏng ngẫu nhiên 5 biến lần lượt là X1 có phân phối chuẩn; X2 có phân phối Poisson; X3 có phân phối đều; X4 có phân phối Chi bình phương và X5 có phân phối nhị thức. Các mô phỏng ngẫu nhiên được thực hiện lần lượt như sau:

1.1. X1- Phân phối chuẩn chính tắc

Phân phối chuẩn tắc (Normal Distribution): Còn được gọi là phân phối Gaussian. Phân phối có hình dạng đối xứng và được đặc trưng bởi hai tham số: giá trị trung bình (mean) và độ lệch chuẩn (standard deviation). Phân phối chuẩn tắc cho thấy rằng dữ liệu gần giá trị trung bình sẽ thường xuất hiện hơn so với dữ liệu xa giá trị trung bình. Trong phân phối chuẩn tắc, giá trị trung bình là 0 và độ lệch chuẩn là 1 (mean= 0 và sd= 1).

Để các hàm không thay đổi sau mỗi lần chạy mô phỏng, hàm set.seed() được sử dụng.

set.seed(1)

Cho n = 100

Tạo biến X1 là một dãy số gồm 100 giá trị ngẫu nhiên có phân phối chuẩn chính tắc với hai tham số là giá trị trung bình mean =0 và độ lệch chuẩn sd =1:

# Kích thước mẫu
n <- 100 

x1 <- rnorm(n, mean = 0, sd = 1) 
hist(x1, main = "Normal Distribution", xlab = "x1")

summary(x1) # Statistic summary of x1
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -2.2147 -0.4942  0.1139  0.1089  0.6915  2.4016

Ý nghĩa: Biểu đồ thể hiện tần suất xuất hiện của các giá trị. Biểu đồ phân phối chuấn tắc cho biến X1 có dạng cao hơn ở giữa do các giá trị gần giá trị trung bình xuất hiện nhiều hơn và thấp dần về hai bên khi ra xa giá trị trung bình. Đây cũng là hình dạng phổ biến của phân phối chuẩn, đó là dạng đường cong hình chuông nếu thể hiện dưới dạng đồ thị đường.

Biểu đồ thể hiện các giá trị trong đoạn từ [-2.5; -2] có tần suất xuất hiện thấp nhất, đoạn [-1.5; 0] có tần suất xuất hiện nhiều nhất. Thống kê mô tả cho kết quả giá trị thấp nhất xuất hiện trong mô phỏng là -2.2147 và giá trị cao nhất xuất hiện là 2,4016, giá trị trung bình của dãy số xấp xỉ là 0.

1.2. X2- Phân phối Poisson

Phân phối (Poisson Poisson Distribution): Dùng để đo xác xuất của sự kiện rời rạc xảy ra nhiều lần tại thời điểm ngẫu nhiên, trong một khoảng thời gian nhất định. Chẳng hạn như số lần kiểm tra sách thư viện mỗi giờ. Phân phối Poisson được đặc trưng bởi một tham số duy nhất là λ (lambda) tỷ lệ trung bình của sự kiện.

Tạo biến X2 là một dãy số gồm 100 giá trị ngẫu nhiên có phân phối Poisson với giá trị trung bình λ = 3:

x2 <- rpois(n, lambda = 3 )
hist(x2, main = "Poisson Distribution", xlab = "x2")

summary(x2) # Statistic summary of x2
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    1.00    2.00    2.67    3.25    7.00

Ý nghĩa: Do giá trị trung bình (lambda) của phân phối Poisson là 3, nên các giá trị xuất hiện sẽ là các giá trị ở gần 3 và sẽ có trung bình xấp xỉ bằng 3 như 0, 1, 2, 3, 4, 5. Vì vậy, đây là các số xuất hiện nhiều nhất trong mô phỏng. Các số ở xa hơn như 6, 7 sẽ có xác suất xuất hiện thấp hơn. Điều đó giải thích được phân bố xác suất hiển thị trên biểu đồ tập trung vào các số 0, 1, 2, 3, 4, 5. Qua biểu đồ có thể thấy, số xuất hiện nhiều nhất là 3 và ít nhất là 6.

Thống kê mô tả cho thấy, giá trị nhỏ nhất xuất hiện là 3, giá trị lớn nhất xuất hiện là 7. Giá trị trung bình là 2.67, xấp xỉ bằng 3.

1.3. X3- Phân phối đều trên đoạn

Phân phối đều trên đoạn (a, b) (Uniform Distributions): Còn được gọi là phân phối hình chữ nhật, được đặc trưng bởi hàm mật độ xác suất không đổi. Trong phân phối này, tất cả các kết quả có cùng cơ hội xảy ra trong một khoảng giá trị cụ thể. Phân phối đều thường được sử dụng khi không có kiến thức hay giả định trước về khả năng xảy ra của các kết quả khác nhau. Ví dụ, tung một con xúc xắc sáu mặt đồng đều hoặc chọn một số ngẫu nhiên trong một khoảng giá trị đã cho.

Tạo biến X3 là biến gồm một dãy số có 100 giá trị ngẫu nhiên với giá trị nhỏ nhất là 0, giá trị lớn nhất là 100:

x3 <- runif(n, 0, 100) 
hist(x3, main = "Uniform Distribution", xlab = "x3")

summary(x3) # Statistic summary of x3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.38   26.77   46.28   50.30   78.28   99.61

Ý nghĩa: Qua biểu đồ có thể thấy, mặc dù không hoàn toàn đồng đều do số quan sát thấp. Tuy nhiên, cơ hội xảy ra của các giá trị là như nhau, nên giá trị xuất hiện nhiều nhất hay ít nhất là hoàn toàn ngẫu nhiên vào mỗi lần mô phỏng. Ở biểu đồ này, giá trị xuất hiện nhiều nhất là đoạn [40; 50], thấp nhất là [50; 60].

Thống kê mô tả cho thấy giá giá trị thấp nhất xuất hiện là 6.38 và lớn nhất là 99.61, giá trị trung bình là 50.30.

1.4. X4- Phân phối Chi bình phương

Phân phối chi bình phương (Chi-Square Distribution): Phân phối chi bình phương thường được sử dụng trong thống kê suy luận như kiểm định giả thuyết thống kê, xây dựng khoảng tin cậy hay đánh giá mối quan hệ giữa các biến phân loại. Phân phối chi bình phương được đặc trưng bởi một tham số duy nhất là bậc tự do.

Tạo biến X4 là một dãy gồm 100 giá trị ngẫu nhiên có phân phối Chi bình phương với tham số bậc tự do df = 10.

x4 <- rchisq(n, df = 10) 
hist(x4, main = "Chi-square Distribution", xlab = "x4")

summary(x4) # Statistic summary of x4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.908   7.092   9.353   9.976  13.383  23.749

Ý nghĩa: Biểu đồ thể hiện giá trị xuất hiện thường xuyên nhất là đoạn [8; 10]. Thống kê mô tả cho giá trị nhỏ nhất là 1.908 giá trị lớn nhất là 23.749 và giá trị trung bình là 9.976.

1.5. X5- Phân phối nhị thức

Phân phối nhị thức với xác suất p (Binomial Distribution): Dùng để tính xác suất cho một quá trình trong đó chỉ có một trong hai kết quả có thể xảy ra trên mỗi thử nghiệm, chẳng hạn như tung đồng xu. Mỗi thử nghiệm chỉ có hai kết quả. Tổng cộng có n thử nghiệm giống nhau. Mỗi thử nghiệm đều độc lập so với những lượt thử khác (Ví dụ tung đồng xu: thử nghiệm 1 tung ra hình sẽ không ảnh hưởng đến lượt thử 2 tung ra hình hay số). Mỗi thử nghiệm sẽ có xác suất giống nhau. Có 2 tham số của phân phối này, số thử nghiệm n và xác suất thành công p.

Tạo biến X5 là một dãy gồm 100 giá trị có phân phối nhị thức với hai tham số là số lần thử nghiệm size = 7, xác suất prob = 0.7:

x5 <- rbinom(n, size = 7, prob = 0.7) 
hist(x5, main = "Binomial Distribution", xlab = "x5")

summary(x5) # Statistic summary of x5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3.00    4.00    5.00    4.94    6.00    7.00

Ý nghĩa: Trung bình của phân phối nhị thức = 4.94. Điều này có nghĩa là trung bình, có thể mong đợi thấy khoảng 4.9 lần xuất hiện của giá trị 7 trong vector X5 được tạo ra. Trong trường hợp này, với p = 0.7, phân phối có thể có xu hướng lệch phải nhẹ. Như vậy có nghĩa là có khả năng quan sát được nhiều lần xuất hiện hơn giá trị trung bình 4.94, nhưng phân phối vẫn tập trung xung quanh giá trị này.

Thống kê mô tả cho thấy giá giá trị thấp nhất xuất hiện là 3 và lớn nhất là 7.

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.