Nội dung
- Một số khái niệm cơ bản về xác suất.
- Định nghĩa về xác suất.
- Một số công thức tính xác suất cơ bản.
Một số khái niệm cơ bản.
Phép thử ngẫu nhiên: Là một quá trình hoặc một hành động mà kết quả không thể dự đoán trước được.
Kết cục (outcome): Là kết quả của một lần thử. Kết cục còn được gọi là biến cố sơ cấp.
Không gian mẫu (sample space): Tập hợp tất cả các kết cục có thể xảy ra của một phép thử, thường được ký hiệu là \(\Omega\).
Biến cố (event): Là một tập hợp con của không gian mẫu, bao gồm một hoặc nhiều kết cục.
Xác suất (probability): Là một con số đo lường khả năng xảy ra của một biến cố, thường nằm trong khoảng từ 0 đến 1.
Ví dụ 1: Tung một đồng xu.
Ví dụ 2: Tung 2 đồng xu.
Ví dụ 3: Tung 10.000 đồng xu.
Ví dụ 4: Tung 1 xúc xắc.
Ví dụ 5: Tung 1 triệu xúc xắc.
Ví dụ 6: Chọn 3 lá bài từ bộ bài tây 52 lá.
Định nghĩa về xác suất
- Xác suất cổ điển (Classical probability): Dựa trên giả định rằng tất cả các kết cục của một phép thử là như nhau và có khả năng xảy ra như nhau. \[P(E) = \frac{\text{Số kết cục thuận lợi cho biến cố E}}{\text{Tổng số kết cục trong không gian mẫu}}=\frac{|E|}{|\Omega|}\]
- Xác suất thống kê (Empirical probability): Dựa trên việc quan sát và thu thập dữ liệu từ các phép thử thực tế. \[P(E) = \frac{\text{Số lần biến cố E xảy ra}}{\text{Tổng số lần thực hiện phép thử}}=\lim_{n\to+\infty}\frac{k}{n}\]
- Xác suất theo quan điểm hình học (Geometric probability): Dựa trên tỷ lệ giữa độ dài, diện tích hoặc thể tích của các vùng liên quan đến biến cố và không gian mẫu. \[P(E) = \frac{\text{Độ dài/Diện tích/Thể tích của vùng thuận lợi cho biến cố E}}{\text{Độ dài/Diện tích/Thể tích của không gian mẫu}}\]
- Xác suất chủ quan (Subjective probability): Dựa trên quan điểm cá nhân, kinh nghiệm hoặc niềm tin của một người về khả năng xảy ra của một biến cố. \[P(E) = \text{Đánh giá cá nhân về khả năng xảy ra của biến cố E}\]
Một số khái niệm liên quan đến biến cố
- Biến cố xung khắc: Hai biến cố \(A\) và \(B\) được gọi là xung khắc nếu chúng không thể xảy ra đồng thời trong một lần thử, tức là: \(A \cap B = \emptyset\).
- Biến cố độc lập: Hai biến cố A và B được gọi là độc lập nếu việc xảy ra của biến cố này không ảnh hưởng đến xác suất xảy ra của biến cố kia, tức là: \(P(A|B) = P(A)\) hoặc \(P(B|A) = P(B)\).
- Biến cố đối lập: Hai biến cố \(A\) và \(B\) được gọi là đối lập nếu một trong hai biến cố này luôn xảy ra trong một lần thử, tức là: \[P(A) + P(\bar{A}) = 1\]. Hoặc: \[A \cup \bar{A} = \Omega\]
Một số công thức tính xác suất cơ bản
- \(P(A) + P(\bar{A})=1\)
- Công thức cộng: Xác suất để biến cố \(A\) hoặc biến cố \(B\) xảy ra được tính bằng công thức: \[P(A \cup B) = P(A) + P(B)- P(A \cap B)\]
Nếu \(A\) và \(B\) xung khắc thì \[P(A \cup B) = P(A) + P(B)\]
- Công thức nhân: Xác suất để biến cố \(A\) và biến cố \(B\) xảy ra được tính bằng công thức: \[P(A \cap B) = P(A) \times P(B|A)\]
Nếu hai biến cố \(A\) và \(B\) là độc lập thì: \[P(A \cap B) = P(A) \times P(B)\] - Công thức xác suất có điều kiện: Xác suất của biến cố A xảy ra khi biết biến cố B đã xảy ra. \[P(A|B) = \frac{P(A \cap B)}{P(B)}\] - Định lý Bayes: Dùng để tính xác suất có điều kiện ngược lại (hay còn được gọi là xác suất hậu nghiệm). \[P(A|B) = \frac{P(B|A) \times P(A)}{P(B)}\] - Công thức xác suất toàn phần: Nếu các biến cố \(\{B_1, B_2, ..., B_n\}\) tạo thành một phân hoạch của không gian mẫu, thì xác suất của biến cố \(A\) (có thể xảy ra đồng thời với một trong những biến cố \(B_i\)) được tính bằng công thức: \[P(A) = \sum_{i=1}^{n} P(A|B_i) \times P(B_i)\]
Ví dụ về các công thức tính xác suất
ví dụ 1: Có ba người lần lượt là A, B và C, mỗi người bắn 1 mũi tên vào bia. Giả sử xác suất bắn trúng bia của từng người tương ứng là: 80%, 70% và 60%. Hãy tính các xác suất sau:
- Xác suất A bắn trượt.
- Xác suất cả 3 người cùng bắn trúng.
- Xác suất A trúng, B trượt, C trượt.
- Xác suất A bắn trúng.
- Xác suất ít nhất một người bắn trúng.
- Xác suất chỉ có A bắn trúng.
- Xác suất đúng một người bắn trúng.
Giải: Gọi \(A_1,A_2,A_3\) lần lượt là biến cố người A, người B và người C bắn trúng mục tiêu.
\(P(A_1) = 0,8; P(A_2) = 0,7; P(A_3) = 0,8\)
- Xác suất A bắn trượt
Gọi \(E_1\) là biến cố “A bắn trượt”. Diễn giải \(E_1\) qua \(A\): \[E_1 = \bar{A_1}A_2A_3+\bar{A_1}\bar{A_2}A_3+\bar{A_1}A_2\bar{A_3}+\bar{A_1}\bar{A_2}\bar{A_3}\]
\[P(E_1) = P(\bar{A_1}A_2A_3+\bar{A_1}\bar{A_2}A_3+\bar{A_1}A_2\bar{A_3}+\bar{A_1}\bar{A_2}\bar{A_3})\] \[P(E_1) = P(\bar{A_1}A_2A_3)+P(\bar{A_1}\bar{A_2}A_3)+P(\bar{A_1}A_2\bar{A_3})+P(\bar{A_1}\bar{A_2}\bar{A_3})\] \[P(E_1) = P(\bar{A_1})P(A_2)P(A_3)+P(\bar{A_1})P(\bar{A_2})P(A_3)+P(\bar{A_1})P(A_2)P(\bar{A_3})+P(\bar{A_1})P(\bar{A_2})P(\bar{A_3})\]
- Xác suất cả 3 người cùng bắn trúng:
Biến cố cần tính:
Gọi \(E_2\) là biến cố “cả 3 người cùng bắn trúng”. Diễn giải: \[E_2 = A_1 A_2 A_3\] \[P(E_2) = P(A_1 A_2 A_3)\] \[P(E_2) = P(A_1)P(A_2)P(A_3)= 0.8 \times 0.7 \times 0.6 = 0.336\] 3. Xác suất A trúng, B trượt, C trượt
Gọi \(E_3\): “A trúng, B trượt, C trượt”. Diễn giải: \[E_3 = A_1\bar{A_2}\bar{A_3}\] Áp dụng công thức nhân: \[P(E_3) = 0.8 \times 0.3 \times 0.4 = 0.096\]
- Xác suất A bắn trúng
Biến cố cần tính:
Gọi \(E_4\) là biến cố “A bắn trúng”. Diễn giải: \[E_4 = A_1A_2A_3+A_1\bar{A_2}A_3+A_1\bar{A_2}\bar{A_3}\]
- Xác suất ít nhất một người bắn trúng
Gọi \(E_5\) là biến cố: “ít nhất một người bắn trúng”, nên
\(\bar{E_5}\) là biến cố: “không người nào bắn trúng”.
\[\bar{E_5} = \bar{A_1}\bar{A_2}\bar{A_3}\] Áp dụng công thức nhân cho các biến cố đối lập: \[P(\bar{E_5}) = P(\bar{A_1}\bar{A_2}\bar{A_3})=P(\bar{A_1})P(\bar{A_2})P(\bar{A_3})\]
- Xác suất chỉ có A bắn trúng
Gọi \(E_6\) là biến cố: “Chỉ có A bắn trúng”. Diễn giải: \[E_6 = A_1\bar{A_2}\bar{A_3}\]
- Xác suất đúng một người bắn trúng Gọi \(E_7\) là biến cố: “Đúng một người bắn trúng”. Diễn giải: \[E_7 = A_1\bar{A_2}\bar{A_3} + \bar{A_1}A_2\bar{A_3} + \bar{A_1}\bar{A_2}A_3\]
Ví dụ 2: Một nhà máy có 3 máy sản xuất linh kiện với các thông tin sau:
- Máy 1 chiếm 20% tổng sản lượng, tỉ lệ sản phẩm lỗi là 1%.
- Máy 2 chiếm 50% tổng sản lượng, tỉ lệ sản phẩm lỗi là 2%.
- Máy 3 chiếm 30% tổng sản lượng, tỉ lệ sản phẩm lỗi là 3%.
Chọn ngẫu nhiên 1 sản phẩm:
- Tính xác suất chọn được sản phẩm lỗi.
- Nếu sản phẩm được chọn là sản phẩm lỗi thì sản phẩm này có khả năng do máy nào sản xuất là cao nhất?
Gọi \(B_1, B_2, B_3\) lần lượt là các biến cố sản phẩm được chọn do máy 1, máy 2 và máy 3 sản xuất.
Gọi \(A\) là biến cố chọn được sản phẩm lỗi.
Ta có: \[P(B_1) = 0.2, \quad P(B_2) = 0.5, \quad P(B_3) = 0.3\] \[P(A|B_1) = 0.01, \quad P(A|B_2) = 0.02, \quad P(A|B_3) = 0.03\] Áp dụng công thức xác suất đầy đủ: \[P(A) = 0.01(0.2) + 0.02(0.5) + 0.03(0.3) = 0.021\] Áp dụng công thức Bayes: \[P(B_3|A) = \frac{P(A|B_3) \cdot P(B_3)}{P(A)} = \frac{0.03 \times 0.3}{0.021} \approx 0.4286\]
Biến ngẫu nhiên
Biến ngẫu nhiên (Random Variable) là một ánh xạ gán mỗi kết quả (outcome) trong không gian mẫu bởi một số thực. Ký hiệu:
\[X: \Omega \rightarrow \mathbb{R}\] Trong đó:
- \(\Omega\): Không gian mẫu
- \(X(\omega)\): giá trị của biến ngẫu nhiên tương ứng với kết quả \(\omega\)
Ví dụ cho trường hợp rời rạc
Tung một đồng xu hai lần. Gọi \(X\) là số lần xuất hiện mặt ngửa.
| SS |
X=0 |
| SN |
X=1 |
| NS |
X=1 |
| NN |
X=2 |
\(X\) chỉ có thể nhận các giá trị: 0, 1, 2.
Ví dụ cho trường hợp liên tục
Đo thời gian (tính bằng giây) để một máy chủ phản hồi .
- Giá trị có thể là bất kỳ số thực dương.
- Không thể liệt kê hết các giá trị.
Một số tình huống xuất hiện biến ngẫu nhiên rời rạc:
| 1️⃣ |
Tung 3 đồng xu |
Số lần xuất hiện mặt ngửa |
0, 1, 2, 3 |
| 2️⃣ |
Gọi điện cho khách hàng |
Số người nghe máy trong 10 cuộc gọi |
0–10 |
| 3️⃣ |
Sản xuất 100 linh kiện |
Số sản phẩm bị lỗi |
0–100 |
| 4️⃣ |
Đăng bài trên mạng xã hội |
Số lượt like nhận được sau 1 giờ |
0, 1, 2, … |
| 5️⃣ |
Hàng chờ ở quầy thanh toán |
Số khách đang xếp hàng tại một thời điểm |
0, 1, 2, … |
Một số tình huống xuất hiện biến ngẫu nhiên liên tục:
| 6️⃣ |
Đo chiều cao sinh viên |
Chiều cao (cm) |
[140, 200] |
| 9️⃣ |
Nhiệt độ trong phòng |
Nhiệt độ (°C) |
\(\mathbb{R}\) |
| 🔟 |
Cường độ tín hiệu Wi-Fi |
Mức công suất sóng (dBm) |
(\(-\infty\),0] |
Các đặc trưng của biến ngẫu nhiên rời rạc
Bảng phân phối xác suất:
| P |
\(p_1\) |
\(p_2\) |
\(p_3\) |
\(\dots\) |
\(p_4\) |
- Kỳ vọng: Kỳ vọng của BNN \(X\) là giá trị trung bình (có trọng số là xác suất) của những giá trị mà BNN có thể nhận. Kỳ vọng được ký hiệu là \(E(X)\) \[E(X)=\sum_{i=1}^np_ix_i=\frac{\sum_{i=1}^n f_ix_i}{\sum_{i=1}^n f_i}\].
- Phương sai: Phương sai của BNN \(X\) sẽ đo lường mức độ chênh lệch giữa các giá trị mà BNN có thể nhận và được ký hiệu là \(Var(X)\) \[Var(X) = E[(X-E(X))^2]=\sum_{i=1}^np_i(x_i-E(X))^2=\frac{\sum_{i=1}^nf_i[(x_i-E(X)]^2}{\sum_{i=1}^n f_i}\]
- Độ lệch chuẩn: là căn bậc 2 của phương sai.
Ví dụ: Với trò chơi Bầu - Cua - Tôm - Cá. Bảng phân phối xác suất của số tiền lời là:
| \(P(X = x)\) |
0.5787 |
0.3472 |
0.0694 |
0.0046 |
\[E(X)= −0.0790; Var(X)=1.2384\]
Ví dụ 3: (Kinh tế) Đánh giá lợi nhuận của một dự án đầu tư trong 1 năm là biến ngẫu nhiên \(Y\) (đơn vị: tỷ VNĐ). \(Y\) nhận các giá trị: \(-5\) (lỗ), \(0\) (hòa vốn), \(2\), \(6\) với xác suất tương ứng là \(0.2\); \(0.3\); \(0.35\) và \(0.15\). Tính kỳ vọng \(E(Y)\) và mức độ rủi ro \(Var(Y)\) của dự án trên.
Một số quy luật phân phối xác suất của biến ngẫu nhiên liên tục
Với biến ngẫu nhiên liên tục, chúng ta sẽ có khái niệm hàm mật độ phân phối xác suất.
\(f(x)\) được gọi là hàm mật độ phân phối xác suất của một biến ngẫu nhiên (liên tục) nếu thoả 2 điều sau:
\[f(x) \ge 0; \forall x \\ \int_{-\infty}^{\infty}f(x)dx=1\] Khi đó, xác suất của một biến ngẫu nhiên được tính như sau: \[P(a\le X \le b) = \int_a^bf(x)dx\] và:
- Kỳ vọng của \(X\): \[E(X) = \int_{-\infty}^{\infty}xf(x)dx\]
- Phương sai của \(X\): \[E(X) = \int_{-\infty}^{\infty}[x-E(X)]^2f(x)dx\]
Biến ngẫu nhiên có phân phối mũ
Ví dụ. Thời gian phản hồi (giây) của một máy chủ là biến ngẫu nhiên \(X\) với hàm mật độ phân phối xác suất: \[f(x) = \begin{cases}\lambda e^{-\lambda x}, & x \ge 0 \\0, & x < 0\end{cases}\] với \(\lambda = 0.5\).
- Tính \(P(X \le 2)\).
- Tính \(P( 2.5 \le X \le 4.8)\).
- Tính kỳ vọng \(E[X]\) và phương sai \(Var(X)\).
Biến ngẫu nhiên có phân phối Chuẩn
Ví dụ. Nhiệt độ trong phòng là biến ngẫu nhiên có phân phối chuẩn \(X \sim N(\mu, \sigma^2)\) (đơn vị \(^0\)C). Với hàm mật độ phân phối xác suất là: \[f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\] Với \(\mu = 24\) và \(\sigma = 9\)
- Tính xác suất \(P(23 \le X \le 27)\).
- Tính \(P(X > 28)\).
- Tìm giá trị \(a\) sao cho \(P(X \le a) = 0.975\).
- Tính kỳ vọng \(E[X]\) và phương sai \(Var(X)\).
Biến ngẫu nhiên có phân phối Chi bình phương
Biến ngẫu nhiên \(X\) được gọi là có phân phối Chi bình phương nếu hàm mật độ phân phối xác suất của \(X\) là: \[f(x; k) =
\begin{cases}\dfrac{1}{2^{k/2} \Gamma(k/2)} , x^{(k/2) - 1} e^{-x/2}, & x > 0, \\ 0, & x \le 0.
\end{cases}\] Với:
- \(k = 1,2,3\dots\) gọi là bậc tự do.
- \(\Gamma(z) = \int_0^\infty t^{z-1} e^{-t} dt\)
Biến ngẫu nhiên có phân phối Student
\(X\) được gọi là biến ngẫu nhiên có phân phối Student nếu hàm mật độ phân phối xác suất là: \[f(x) = \frac{\Gamma(\frac{k+1}{2})}{\sqrt{k\pi}\Gamma(\frac{k}{2})} \left(1 + \frac{x^2}{k}\right)^{-\frac{k+1}{2}}\] Với \(k\) là bậc tự do.
Biến ngẫu nhiên có phân phối Fisher
Biến ngẫu nhiên \(X\) được gọi là có phân phối Fisher với \(d_1\) và \(d_2\) bậc tự do nếu hàm mật độ phân phối xác suất của \(X\) là:
\[f(x; d_1, d_2) = \begin{cases} \dfrac{\Gamma\left(\frac{d_1 + d_2}{2}\right)}{\Gamma\left(\frac{d_1}{2}\right) \Gamma\left(\frac{d_2}{2}\right)} \left(\dfrac{d_1}{d_2}\right)^{\frac{d_1}{2}} \dfrac{x^{\frac{d_1}{2}-1}}{\left(1 + \frac{d_1}{d_2}x\right)^{\frac{d_1 + d_2}{2}}}, & x > 0, \\ 0, & x \le 0. \end{cases}\]
Lý thuyết mẫu và \ Bài toán ước lượng
Nội dung
- Hiểu khái niệm “tổng thể” (population) và “mẫu” (sample) trong thống kê.
- Nắm được các phương pháp chọn mẫu cơ bản.
- Hiểu ý nghĩa của phân phối mẫu (sampling distribution).
- Biết cách ước lượng trung bình và tỷ lệ của quần thể.
- Giải thích tại sao mẫu lớn hơn \(\to\) sai số nhỏ hơn (luật số lớn).
- Biết áp dụng vào bài toán thực tế: khảo sát thị trường, dự báo doanh thu, đánh giá chính sách.
Một số khái niệm
- Tổng thể: Là tập hợp tất cả các phần tử mà chúng ta cần nghiên cứu.
- Mẫu: Là một tập con của tổng thể.
- Mẫu tổng quát: Là một vector \(n\) chiều của các biến ngẫu nhiên \((X_1,X_2,\dots,X_n)\).
- Mẫu cụ thể: Là một vector \(n\) chiều của những giá trị mà mẫu tổng quát có thể nhận \((x_1,x_2,\dots,x_n)\).
- Quan sát: Là một phần tử của mẫu.
- Độ tin cậy: Xác suất để một biến cố xảy ra.
- Sai số: Là sự sai khác giữa giá trị thực tế và giá trị dự đoán.
- Tham số: Là đặc trưng mô tả phân phối của biến ngẫu nhiên.
Phân phối mẫu
Thống kê (lý thuyết): Là một hàm của mẫu tổng quát. \[T= T(X_1,X_2,\dots,X_n)\] Một số thống kê cơ bản:
- \(\bar{X}=\frac{1}{n}\sum X_i\)
- \(\hat{\sigma}^2=\frac{1}{n-1}\sum (X_i - \bar{X})^2\)
- \(\hat{p}=\frac{\text{số phần tử có tính chất A}}{n}\)
| Trung bình mẫu |
\(\bar{X}\) |
\(\frac{1}{n}\sum X_i\) |
Đại diện giá trị trung tâm |
| Phương sai mẫu |
\(S^2\) |
\(\frac{1}{n-1}\sum (X_i - \bar{X})^2\) |
Độ phân tán |
| Tỷ lệ mẫu |
\(\hat{p}\) |
\(\frac{\text{số phần tử có tính chất A}}{n}\) |
Ước lượng xác suất thật \(p\) |
Định lý giới hạn trung tâm
Giả sử \(X_1, X_2, \dots, X_n\) là mẫu ngẫu nhiên độc lập cùng phân phối từ một tổng thể bất kỳ, với:
\[E(X_i)=\mu, \quad Var(X_i)=\sigma^2 < \infty\] Khi đó, với kích thước mẫu \(n\) đủ lớn: \[\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \xrightarrow{d} N(0,1)\]
hay xấp xỉ: \[\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\] Trong thực hành, khi \(n \ge 30\), phân phối của \(\bar{X}\) thường được coi là gần chuẩn.
Phân phối mẫu và ý tưởng ước lượng khoảng
Giả sử tổng thể có phân phối phụ thuộc tham số \(\theta\) (ví dụ: \(\mu, \sigma^2, p\)). Khi đó, các thống kê mẫu \(T(X_1,\dots,X_n)\) sẽ có phân phối mẫu.
Ý tưởng của ước lượng khoảng là tìm một khoảng ngẫu nhiên \([L(X), U(X)]\) sao cho:
\[P\big(L(X) \le \theta \le U(X)\big) = 1-\alpha\] Khoảng này được gọi là khoảng tin cậy mức \(1-\alpha\) cho tham số \(\theta\).
Ước lượng khoảng cho kỳ vọng \(\mu\)
Trường hợp phương sai \(\sigma^2\) đã biết
Giả sử: \[X_i \sim N(\mu, \sigma^2), \quad i=1,\dots,n\] Khi đó: \[Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)\]
Với mức ý nghĩa \(\alpha\): \[P\left(-z_{\alpha/2} \le Z \le z_{\alpha/2}\right) = 1-\alpha\\
P\left(-z_{\alpha/2} \le \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \le z_{\alpha/2}\right)=1-\alpha\\
P\left(\bar{X} - z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \le \mu \le \bar{X} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right) = 1-\alpha\]
nên:
\[\bar{x} - z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\le \mu\le \bar{x} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\] Nếu không có \(\sigma\) thì thay bằng \(S\)
Trường hợp phương sai \(\sigma^2\) chưa biết
Nếu tổng thể có phân phối chuẩn và \(\sigma^2\) chưa biết: \[T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t_{n-1}\]
Khoảng tin cậy:
\[\bar{x} - t_{\alpha/2,n-1}\frac{S}{\sqrt{n}} \le \mu \le \bar{x} + t_{\alpha/2,n-1}\frac{S}{\sqrt{n}}\]
Ví dụ: Cân ngẫu nhiên 16 con gà con 15 ngày tuổi, người ta có được số liệu sau: trọng lượng trung bình là 100g và độ lệch chuẩn mẫu hiệu chỉnh là 8g. Với độ tin cậy 93% hãy ước lượng trọng lượng trung bình của lứa gà này.
Ước lượng khoảng cho phương sai \(\sigma^2\)
Nếu mẫu lấy từ tổng thể có phân phối chuẩn: \[\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}\]
Khoảng tin cậy mức \(1-\alpha\):
\[\frac{(n-1)S^2}{\chi^2_{\alpha/2,n-1}} \le \sigma^2 \le \frac{(n-1)S^2}{\chi^2_{1-\alpha/2,n-1}}\] Ví dụ: Một mẫu ngẫu nhiên gồm 18 chi tiết máy được lấy từ một ca sản xuất. Sau khi kiểm tra, người ta thu được độ lệch chuẩn mẫu hiệu chỉnh của độ dài là 4.5 mm. Ước lượng phương sai của độ dài chi tiết máy với độ tin cậy 90%.
Ước lượng khoảng cho tỷ lệ \(p\)
Giả sử \(X \sim \text{Bernoulli}(p)\), với \(n\) đủ lớn:
\[\hat{p} \sim N\left(p, \frac{p(1-p)}{n}\right)\]
Khoảng tin cậy xấp xỉ:
\[\hat{p} - z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \le p \le \hat{p} + z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]
Ví dụ. Khảo sát 400 người về một chính sách mới do chính phủ ban hành, có 120 người đồng ý với chính sách này. Hãy ước lượng tỷ lệ người dân đồng ý với chính sách này với độ tin cậy 95%.
Kết luận
Ước lượng khoảng được xây dựng dựa trên phân phối mẫu của các thống kê. Bằng cách chuẩn hóa thống kê và đảo các bất đẳng thức xác suất, ta thu được khoảng tin cậy cho các tham số chưa biết của tổng thể. Đây là nền tảng của suy luận thống kê cổ điển và kinh tế lượng.
Kiểm định giả thuyết thống kê
Nội dung
- Khái niệm về kiểm định giả thuyết thống kê.
- Các loại sai lầm trong kiểm định.
- Quy trình kiểm định giả thuyết.
- Kiểm định giả thuyết cho kỳ vọng \(\mu\).
- Kiểm định giả thuyết cho phương sai \(\sigma^2\).
- Kiểm định giả thuyết cho tỷ lệ \(p\).
- Ứng dụng và ý nghĩa trong kinh doanh và kinh tế.
Một số khái niệm
- Giả thuyết thống kê (Statistical Hypothesis): Là một phát biểu về một hay nhiều tham số của tổng thể hoặc về quy luật phân phối xác suất của biến ngẫu nhiên.
- Giả thuyết không (\(H_0\) - Null Hypothesis): Là giả thuyết tạm thời được coi là đúng cho đến khi có bằng chứng từ mẫu để bác bỏ. Đây thường là giả thuyết về sự không có sự khác biệt, không có tác động, hoặc tham số bằng một giá trị cụ thể.
- Giả thuyết đối (\(H_1\) hoặc \(H_a\) - Alternative Hypothesis): Là mệnh đề đối lập với \(H_0\). Đây thường là điều chúng ta muốn chứng minh.
- Tiêu chuẩn kiểm định (Test Statistic): Là một thống kê (hàm của mẫu) được sử dụng để quyết định xem có nên bác bỏ \(H_0\) hay không.
- Mức ý nghĩa (\(\alpha\) - Significance Level): Là xác mắc sai lầm loại 1.
- Giá trị p (p-value): Là mức ý nghĩa nhỏ nhất để bác bỏ \(H_0\). Nếu \(p-value < \alpha\), ta bác bỏ \(H_0\).
- Miền bác bỏ (Rejection Region / Critical Region) \(W_\alpha\): Tập hợp các giá trị của tiêu chuẩn kiểm định mà nếu giá trị tính toán rơi vào đó, ta sẽ bác bỏ \(H_0\).
Các loại sai lầm trong kiểm định
Khi ra quyết định thống kê, ta có thể mắc phải hai loại sai lầm:
- Sai lầm loại 1: Bác bỏ \(H_0\) trong khi \(H_0\) đúng. Ví dụ: Kết luận thuốc mới có tác dụng làm giảm huyết áp, trong khi thực tế thuốc đó không có tác dụng.
- Sai lầm loại 2: Chấp nhận \(H_0\) trong khi \(H_0\) sai. Ví dụ: Kết luận thuốc mới không mang lại hiệu quả, trong khi thực tế thuốc đó rất tốt.
| Bác bỏ \(H_0\) |
Sai lầm loại I (Xác suất \(\alpha\)) |
Quyết định đúng |
| Chấp nhận \(H_0\) |
Quyết định đúng |
Sai lầm loại II |
Kiểm định giả thuyết cho kỳ vọng \(\mu\) (Mẫu lớn hoặc đã biết \(\sigma^2\))
Giả sử cần kiểm định giá trị kỳ vọng \(\mu\) của tổng thể với mức \(\mu_0\). Điều kiện: Tổng thể có phân phối chuẩn đã biết \(\sigma^2\), hoặc cỡ mẫu \(n\) lớn (\(n \ge 30\)).
- Giả thuyết \(H_0: \mu = \mu_0\)
- Giá trị kiểm định: \[Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}}\] (Nếu không biết \(\sigma\) thì dùng độ lệch chuẩn mẫu hiệu chỉnh \(S\)).
Miền bác bỏ \(W_\alpha\) tùy thuộc vào \(H_1\):
- Kiểm định hai phía (\(H_1: \mu \neq \mu_0\)): \(W_\alpha = (- \infty, -z_{\alpha/2}) \cup (z_{\alpha/2}, +\infty)\)
- Kiểm định phía phải (\(H_1: \mu > \mu_0\)): \(W_\alpha = (z_{\alpha}, +\infty)\)
- Kiểm định phía trái (\(H_1: \mu < \mu_0\)): \(W_\alpha = (-\infty, -z_{\alpha})\)
Ví dụ kiểm định \(\mu\) (Mẫu lớn)
Ví dụ: Một công ty sữa công bố rằng một hộp sữa bột của họ có trọng lượng trung bình là 900g. Tổ chức bảo vệ người tiêu dùng nghi ngờ trọng lượng bị thiếu. Họ tiến hành cân ngẫu nhiên 36 hộp sữa, tính được trọng lượng trung bình mẫu là 895g, với độ lệch chuẩn của mẫu là 12g. Với mức ý nghĩa 5%, hãy kiểm định xem nghi ngờ trên có đúng không?
Giải:
- Bước 1: \(H_0: \mu = 900\) (Trọng lượng đủ) và \(H_1: \mu < 900\) (Trọng lượng thiếu - kiểm định phía trái).
- Bước 2: Miền bác bỏ: \(W_\alpha = (-\infty, -z_{\alpha})\). Tra bảng \(N(0,1)\), \(z_{\alpha} = 1.645\). Do đó \(W_\alpha = (-\infty, -1.645)\).
- Bước 3: Giá trị kiểm định: \(Z_{obs} = \frac{895 - 900}{12 / \sqrt{36}} = \frac{-5}{2} = -2.5\)
- Bước 4: Vì \(Z_{obs} = -2.5 \in W_\alpha\), nên bác bỏ \(H_0\).
- Kết luận: Trọng lượng trung bình của một hộp sữa nhỏ hơn mức công bố với mức ý nghĩa 5%.
Kiểm định giả thuyết cho kỳ vọng \(\mu\) (Mẫu nhỏ, chưa biết \(\sigma^2\))
Điều kiện: Tổng thể phân phối chuẩn, chưa biết \(\sigma^2\), và mẫu nhỏ (\(n < 30\)).
- Giả thuyết \(H_0: \mu = \mu_0\)
- Giá trị kiểm định: \[T = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}\]
Miền bác bỏ \(W_\alpha\) tùy thuộc vào \(H_1\):
- Kiểm định hai phía (\(H_1: \mu \neq \mu_0\)): \(W_\alpha = (-\infty, -t_{\alpha/2, n-1}) \cup (t_{\alpha/2, n-1}, +\infty)\)
- Kiểm định phía phải (\(H_1: \mu > \mu_0\)): \(W_\alpha = (t_{\alpha, n-1}, +\infty)\)
- Kiểm định phía trái (\(H_1: \mu < \mu_0\)): \(W_\alpha = (-\infty, -t_{\alpha, n-1})\)
Ví dụ kiểm định \(\mu\) (Mẫu nhỏ)
Ví dụ: Trọng lượng trung bình của 1 con gà thịt xuất chuồng ở trang trại A trước đây là 2.5 kg. Gần đây, trang trại áp dụng chế độ ăn mới. Sau một thời gian, cân thử 16 con gà thì được trung bình mẫu là 2.6 kg và độ lệch chuẩn mẫu là 0.2 kg. Với mức ý nghĩa 0.05, chế độ ăn mới có làm tăng trọng lượng gà hay không? (Giả thiết trọng lượng gà phân phối chuẩn).
Giải:
- \(H_0: \mu = 2.5\) (Không tăng) và \(H_1: \mu > 2.5\) (Kiểm định phía phải)
- Giá trị kiểm định: \(T = \frac{\bar{X} - 2.5}{S/\sqrt{n}}\)
- Miền bác bỏ: \(W_{0.05} = (t_{0.05, 15}, +\infty)\). Tra bảng t-Student: \(t_{0.05, 15} = 1.753\).
- \(T_{obs} = \frac{2.6 - 2.5}{0.2/\sqrt{16}} = \frac{0.1}{0.05} = 2.0\)
- Vì \(2.0 \in (1.753, +\infty)\) nên bác bỏ \(H_0\).
- Kết luận: Có cơ sở để cho rằng chế độ ăn mới làm tăng trọng lượng gà với mức ý nghĩa 5%.
Kiểm định giả thuyết cho phương sai \(\sigma^2\)
Sử dụng khi cần kiểm định mức độ phân tán của dữ liệu (ví dụ: máy đóng gói có đồng đều không). Điều kiện: Tổng thể có phân phối chuẩn.
- Giả thuyết \(H_0: \sigma^2 = \sigma_0^2\)
- Giá trị kiểm định: \[\chi^2 = \frac{(n-1)S^2}{\sigma_0^2}\]
Miền bác bỏ \(W_\alpha\):
- \(H_1: \sigma^2 \neq \sigma_0^2\): \(W_\alpha = (0, \chi^2_{1-\alpha/2, n-1}) \cup (\chi^2_{\alpha/2, n-1}, +\infty)\)
- \(H_1: \sigma^2 > \sigma_0^2\): \(W_\alpha = (\chi^2_{\alpha, n-1}, +\infty)\)
- \(H_1: \sigma^2 < \sigma_0^2\): \(W_\alpha = (0, \chi^2_{1-\alpha, n-1})\)
Ví dụ: Một máy tiện tự động sản xuất các chi tiết với phương sai độ dài theo thiết kế là \(0.05 (\text{mm})^2\). Theo dõi hoạt động của máy, người ta lấy ngẫu nhiên 20 chi tiết và tính được phương sai mẫu hiệu chỉnh là \(0.08 (\text{mm})^2\). Với mức ý nghĩa 5%, máy tiện có chạy ổn định theo đúng thiết kế không?
Giải:
- \(H_0: \sigma^2 = 0.05\) (Ổn định) và \(H_1: \sigma^2 \neq 0.05\) (Kiểm định 2 phía)
- Giá trị kiểm định: \(\chi^2 = \frac{(n-1)S^2}{\sigma^2_0}= \frac{19 \times 0.08}{0.05} = 30.4\)
- Miền bác bỏ 2 phía ở \(\alpha=0.05\), \(df=19\): \(\chi^2_{0.975, 19} = 8.907\) và \(\chi^2_{0.025, 19} = 32.852\)
- Vì \(X^2_{obs} = 30.4\) thuộc đoạn \([8.907, 32.852]\), ta không bác bỏ \(H_0\).
- Kết luận: Chưa đủ cơ sở nói máy tiện hoạt động kém ổn định (phương sai đổi).
Kiểm định giả thuyết cho tỷ lệ \(p\)
Điều kiện: Cỡ mẫu \(n\) lớn sao cho \(n p_0 \ge 5\) và \(n(1-p_0) \ge 5\).
- Giả thuyết \(H_0: p = p_0\)
- Giá trị kiểm định: \[Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}\] (Với \(\hat{p} = \frac{f}{n}\) là tỷ lệ mẫu tính từ dữ liệu)
Miền bác bỏ \(W_\alpha\):
- Kiểm định hai phía (\(H_1: p \neq p_0\)): \(W_\alpha = (- \infty, -z_{\alpha/2}) \cup (z_{\alpha/2}, +\infty)\)
- Kiểm định phía phải (\(H_1: p > p_0\)): \(W_\alpha = (z_{\alpha}, +\infty)\)
- Kiểm định phía trái (\(H_1: p < p_0\)): \(W_\alpha = (-\infty, -z_{\alpha})\)
Ví dụ kiểm định \(p\)
Ví dụ: Theo hồ sơ lưu trữ thì tỷ lệ phế phẩm của một phân xưởng là 8%. Sau khi áp dụng công nghệ mới, kiểm tra ngẫu nhiên 500 sản phẩm thì thấy có 30 phế phẩm. Với mức ý nghĩa 5%, công nghệ mới có thực sự làm giảm tỷ lệ phế phẩm hay không?
Giải:
- \(\hat{p} = 30/500 = 0.06\). Gọi \(p\) là tỷ lệ phế phẩm theo công nghệ mới.
- \(H_0: p = 0.08\) (Không giảm) và \(H_1: p < 0.08\) (Công nghệ mới làm giảm)
- Tiêu chuẩn kiểm định: \(Z = \frac{0.06 - 0.08}{\sqrt{\frac{0.08 \times 0.92}{500}}} \approx -1.644\)
- Miền bác bỏ phía trái: \(W_{0.05} = (-\infty, -z_{0.05})\). Ta có \(z_{0.05} = 1.645\).
- Do \(Z_{obs} = -1.644 \notin W_{0.05}\) (do \(-1.644 > -1.645\)), ta chưa đủ cơ sở bác bỏ \(H_0\).
- Kết luận: Tỷ lệ phế phẩm thực sự có giảm ở mẫu (6% < 8%) nhưng chưa đủ cơ sở thống kê ở mức 5% để kết luận công nghệ mới hiệu quả biểu hiện rõ rệt cho cả tổng thể.
Mối quan hệ giữa Ước lượng khoảng và Kiểm định giả thuyết
Kiểm định giả thuyết 2 phía ở mức ý nghĩa \(\alpha\) tương đương với bài toán xây dựng khoảng tin cậy ở độ tin cậy \(1-\alpha\):
Giả sử kiểm định \(H_0: \theta = \theta_0\) so với \(H_1: \theta \neq \theta_0\) với mức ý nghĩa \(\alpha\).
- Ta xây dựng khoảng tin cậy \((L, U)\) cho \(\theta\) ở độ tin cậy \(1-\alpha\).
- Nếu \(\theta_0 \notin (L, U)\), ta bác bỏ \(H_0\).
- Nếu \(\theta_0 \in (L, U)\), ta chấp nhận (chưa đủ cơ sở bác bỏ) \(H_0\).
Ý nghĩa: Khoảng tin cậy là phương pháp đưa ra một “phạm vi” giá trị hợp lý của tham số, còn kiểm định giả thuyết giúp xem xét một “giá trị cụ thể” (như \(\theta_0\)) có nằm trong phạm vi hợp lý đó hay không.
Kết luận chương Kiểm định
- Khác với bài toán Ước lượng (tìm dải giá trị), Kiểm định giả thuyết là bài toán quyết định (Yes/No) có rủi ro (đo bằng mức ý nghĩa \(\alpha\)).
- Cách tiếp cận cốt lõi: Giả sử \(H_0\) là đúng \(\Rightarrow\) Tính toán khả năng kết quả của mẫu xảy ra (P-value hoặc Tiêu chuẩn kiểm định). Nếu quá khó xảy ra (rơi vào miền bác bỏ) \(\Rightarrow\) Bác bỏ \(H_0\).
- Sự kết hợp giữa Ước lượng (biết tham số nằm ở đâu) và Kiểm định (có sự khác biệt hay không) chính là nền tảng của Thống kê Suy diễn, hỗ trợ ra quyết định xuất sắc trong Kinh tế và Kinh doanh.