Lý Thuyết Xác Suất Thống Kê và Ứng Dụng
2025-02-27
Ví dụ 1: Đun nước đến \(100^o\)C trong điều kiện bình thường thì nước sẽ bốc hơi.
Ví dụ 2: Tung một con xúc xắc, Bán một hợp đồng bảo hiểm.
Lưu ý: Một cách tổng quát, chúng ta chỉ có 3 nhóm phép thử:
Thực hiện phép thử \(\tau\), có không gian mẫu là \(\Omega\), \(A\) là là một biến cố của phép thử này. Xác suất của biến cố \(A\) được ký hiệu là \(P(A)\) và: \[P(A) = \frac{|A|}{|\Omega|}\] Với \(|A|, |\Omega|\) lần lượt là số phần tử của tập hợp \(A\) và \(\Omega\).
Thực hiện phép thử \(\tau\) \(n\) lần. Gọi \(A\) là biến cố mà chúng ta quan tâm. Khi đó tỷ số \(k/n\) (với \(k\) là số lần xuất hiện biến cố \(A\) trong \(n\) lần thử) được gọi là tần xuất hiện biến cố \(A\). Khi đó xác suất để xuất hiện biến cố \(A\) được định nghĩa: \[P(A) = \lim_{n\to\infty}\frac{k}{n}\] Chúng ta có thể hiểu: \(P(A) \approx k/n\) khi \(n\) đủ lớn.
Ví dụ 1: Tính xác suất xuất hiện mặt ngữa của đồng xu:
Người thực hiện | Số lần thử | Số lần xuất hiện mặt ngữa | Tần suất |
---|---|---|---|
Buffon | 4040 | 2048 | 0,5069 |
Pearson | 12.000 | 6019 | 0,5016 |
Pearson | 24.000 | 12.012 | 0,5005 |
Ví dụ 2: Quan sát 10.000 đứa trẻ được sinh trong 1 cộng đồng dân tộc thiểu số, người ta thấy có 5.100 bé trai. Vậy xác suất sinh bé trai của cộng đồng người này là \(51\%\).
Ví dụ 3: Chọn ngẫu nhiên 200 sản phẩm đi kiểm tra người ta phát hiện có 50 sản phẩm không đạt chất lượng, vậy xác suất không đạt chất lượng của sản phẩm này là \(25\%\).
Ví dụ: Một nhóm có 7 người nam và 2 người nữ, chọn 3 người để thực hiện một nhiệm vụ được giao. Xét các biến cố: Có 3 người nữ, có ít nhất một người nam.
Ví dụ: Tung một con xúc xắc. Xét các biến cố mặt chẵn suất hiện, mặt lẻ xuất hiện, số nút chia hết cho 3 xuất hiện.
Lưu ý: Biến cố đối của biến cố \(A\) được ký hiệu là \(\bar{A}\) và \(P(A)+P(\bar{A}) = 1\).
Ví dụ 1: Quan sát 2 sinh viên đi thi môn Toán cao cấp, gọi \(A, B\) lần lượt là các biến cố sinh viên thứ nhất thi đậu và sinh viên thứ 2 thi đậu, xét tính độc lập của 2 biến cố này.
Ví dụ 2: Một chùm chìa khóa có 5 chìa (rất giống nhau về hình thức), nhưng trong đó chỉ có 3 chìa mở được cửa. Gọi \(A_1,A_2\) lần lượt là biến cố mở được cửa ở lần mở thứ nhất và thứ 2, xét tính độc lập của 2 biến cố này.
Định nghĩa: Biến cố \(C\) được gọi là tích của biến cố \(A\) và biến cố \(B\), ký hiệu là \(C= A\cap B\) hoặc \(C=AB\) nếu: Biến cố \(C\) xảy ra khi biến cố \(A\) và biến cố \(B\) cùng xảy ra.
Công thức nhân xác suất: \[P(AB) = P(A).P(B|A)\] trong trường hợp 2 biến cố \(A, B\) độc lập với nhau thì công thức trở thành: \[P(AB) = P(A).P(B)\]
Ví dụ 1: Có 2 kho hàng, kho thứ nhất có 5 sản phẩm đạt chất lượng và 2 sản phẩm không đạt chất lượng, kho thứ 2 có 6 sản phẩm đạt chất lượng và 1 sản phẩm không đạt chất lượng, lấy mỗi kho 1 sản phẩm. Tính xác suất cả 2 sản phẩm được chọn đều là sản phẩm tốt.
Ví dụ 2: Một chùm chìa khóa có 5 chìa (rất giống nhau), trong đó chỉ có 3 chìa mở được cửa. Tính xác suất để mở được cửa ở lần mở thứ I và thứ II.
Định nghĩa: Biến cố \(C\) được gọi là tổng của biến cố \(A\) và biến cố \(B\), ký hiệu là \(C=A+B\) hoặc \(C=A\cup B\) nếu: Biến cố \(C\) xảy ra khi biến cố \(A\) xảy ra hoặc biến cố \(B\) xảy ra.
Công thức cộng xác suất: \[P(A+B) = P(A)+P(B)-P(AB)\] Nếu \(A,B\) là những biến cố xung khắc thì công thức sẽ trở thành: \[P(A+B) = P(A)+P(B)\] Ví dụ: Khảo sát một nhóm sinh viên người ta thu được thông tin sau, có 50% sinh viên thích bóng đá, 40% sinh viên thích bóng rổ và 15% sinh viên thích cả 2 môn. Chọn ngẫu nhiên một người tính xác suất:
Có 3 vận động viên bắn cung, đưa cho mỗi người một mũi tên và yêu cầu họ bắn vào mục tiêu. Biết rằng xác suất bắn trúng mục tiêu của từng người lần lượt là 0.4; 0.6; 0.8. Tính xác suất để:
Giải:
Gọi \(A_1,A_2,A_3\) lần lượt là biến cố người thứ I,II và thứ III bắn trúng mục tiêu. Ta có: \(P(A_1)=0.4,P(A_2)=0.6,P(A_3)=0.8\)
Cho \(\{A_1, A_2,\dots,A_n\}\) là một hệ biến cố đầy đủ và xung khắc từng đôi, \(B\) là biến cố có thể đồng thời xảy ra với các biến cố ở trên. Khi đó: \[P(B) = P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+\dots+P(A_n)P(B|A_n)\] \[P(A_i|B)=\frac{P(A_i)P(B|A_i)}{P(B)}\]
Ví dụ: Có 3 loại vacine ngừa cúm trên thị trường, tỷ lệ có kháng thể của từng loại vacine tương ứng là 0.65; 0.75 và 0.8. Một khu vực dân cư được tiêm 3 loại vacine này với tỷ lệ tương ứng như sau: 30% dân số được tiêm vacine thứ I, 25% dân số được tiêm vacine thứ II và 45% dân số còn lại được tiêm vacine thứ III.
Khái niệm: Biến ngẫu nhiên là biến số mà giá trị của nó có được từ một phép thử ngẫu nhiên.
ví dụ:
-Bảng Phân phối xác suất: Là bảng có cấu trúc như sau:
\[ \begin{array}{|c|c|c|c|c|c|} \hline X & x_1 & x_2 & x_3 & \dots & x_n \\ \hline P(X=x_i) & p_1 & p_2 & p_3 & \dots & p_n \\ \hline \end{array} \] Ví dụ: Trong kho có 4 sản phẩm loại A và 2 sản phẩm loại B, lấy 2 sản phẩm bất kỳ ra giao cho khách, gọi \(X\) là số sản phẩm loại A khách nhận được, lập bảng phân phối xác suất cho X.
\[ \begin{array}{|c|c|c|c|} \hline X & 0 & 1 & 2 \\ \hline P(X=x) & 1/15 & 8/15 & 6/15 \\ \hline \end{array} \] \[P(X=x) = \frac{C_4^xC_2^{2-x}}{C_6^2}\] và $ E(X) = $
Biến ngẫu nhiên \(X\) được gọi là có phân phối nhị thức (ký hiệu là \(X \sim B(n,p)\)) nếu thỏa các điều sau:
Khi đó xác suất để \(X\) nhận giá trị \(x\) được tính bằng công thức sau: \[P(X= x) = C_n^xp^x(1-p)^{n-x}\] và \(E(X) = np, Var(X) = np(1-p)\)
Một đề thi trắc nghiệm có 15 câu hỏi, mỗi câu hỏi có 4 phương án trong đó có 1 đáp án. Theo dữ liệu thống kê thì xác suất trả lời đúng cho mỗi câu hỏi là 70%. Một sinh viên tham gia trả lời đề thi này, tính xác suất sinh viên này:
Giải:
Gọi \(X\) là số câu trả lời đúng của sinh viên này, \(X\sim B(15,0.7)\)
\(P(X=3) = C_{15}^3(0.7)^3(0.3)^{12}\)
\(P(X>12) = C_{15}^{13}(0.7)^{13}(0.3)^{2} + C_{15}^{14}(0.7)^{14}(0.3)^{1} + C_{15}^{15}(0.7)^{15}(0.3)^{0}\)
\(P(X>7) = P(X=8)+P(X=9)+P(X=10)+P(X=11)+P(X=12)+P(X=13)+P(X=14)+P(X=15)\)
Tỷ lệ thi đậu môm học A của sinh viên là 70%, chọn ngẫu nhiên 12 sinh viên. Tính xác suất để:
Một tập hợp gồm \(N\) phần tử, trong đó có \(M\) phần tử có tính chất A, chọn \(n\) phần tử từ tập hợp này. Gọi \(X\) là số phần tử có tính chất A trong \(n\) phần tử được chọn, trong trường hợp này \(X\) được gọi là có phân phối siêu bội và được ký hiệu: \(X \sim H(N,M,n)\) và \[P(X = x) = \frac{C_M^xC_{N-M}^{n-x}}{C_N^n}\] và \(E(X) = n\frac{M}{N}, Var(X) = n\frac{M}{N}(1-\frac{M}{N})\frac{N-n}{N-1}\)
Một lớp học có 7 sinh viên nam và 5 sinh viên nữ, chọn ngẫu nhiên 3 người lên trình bày về một vấn đề. Gọi \(X\) là số sinh viên nam trong 3 người được chọn, lập bảng phân phối xác suất cho \(X\).
Giải:
\(X\sim H(12,7,3)\) \[P(X=x)= \frac{C_7^xC_{5}^{3-x}}{C_{12}^3}\]
\[ \begin{array}{|c|c|c|c|c|} \hline X & 0 & 1 & 2 & 3 \\ \hline P(X=x) & & & & \\ \hline \end{array} \]
Thực hiện một dãy phép thử thỏa các điều kiện sau:
Chúng ta sẽ thực hiện phép thử này cho đến khi nào “thành công” thì dừng, gọi \(X\) là số lần thử khi đó \(X\) được gọi là biến ngẫu nhiên có phân phối hình học và được ký hiệu là \(X\sim Geo(p)\) và: \[P(X=x) = (1-p)^{k-1}p\]
Ví dụ: Một kho hàng với tỷ lệ sản phẩm không đạt chất lượng là 15%, chúng ta sẽ lấy lần lượt từng sản phẩm ra để bán, tính xác suất sản phẩm thứ 5 là sản phẩm không đạt chất lượng.
Giải:
Gọi \(X\) là số lần vào kho lấy hàng cho đến khi lấy phải sản phẩm không đạt chất lượng.
Khi đó \(X\sim Geo(0.15)\). \[P(X = 5) = (0.85)^4(0.15)\]
Thực hiện/quan sát một phép thử \(\tau\), gọi \(X\) là số lần biến cố \(A\) xuất hiện trong mỗi khoảng thời gian ấn định trước, khi đó \(X\) được gọi là biến ngẫu nhiên có phân phối Poisson và được ký hiệu là: \(X \sim P(\lambda)\) và \[P(X=x)=\frac{\lambda^xe^{-\lambda}}{x!}\] Với \(\lambda\) là số lần suất hiện trung bình của biến cố \(A\) trong khoảng thời gian đã ấn định.
Ví dụ: Một tổng đài điện thoại nghi nhận được thông tin sau: Trong 1 giờ trung bình họ nhận được 5 cuộc điện thoại. Tính xác suất:
Giải: Gọi \(X\) là số cuộc điện thoại gọi đến tổng đài trong 1 giờ, \(X\sim P(5)\)
Hàm mật độ xác suất của biến ngẫu nhiên (liên tục) \(X\): Là hàm số \(f(x)\) thỏa:
Khi đó xác suất của biến ngẫu nhiên \(X\) được tính theo công thức sau: \[P(a \le X \le b) = \int_a^bf(x)dx\] Kỳ vọng của biến ngẫu nhiên (liên tục): \[E(X) = \int_{-\infty}^{+\infty}{xf(x)dx}\]
Phương sai của biến ngẫu nhiên (liên tục): \[Var(X) = \int_{-\infty}^{+\infty}{[x-E(x)]^2f(x)dx}\]
Biến ngẫu nhiên \(X\) được gọi là có phân phối mũ với tham số \(\lambda\) nếu hàm mật độ xác suất là: \[f(x) = \lambda e^{-\lambda x}\] Khi đó \(X\) được ký hiệu là \(X \sim exp(\lambda)\).
Với kỳ vọng là: \(E(X) = \frac{1}{\lambda}\)
và phương sai là:\(Var(X) = \frac{1}{\lambda^2}\)
Ví dụ: Người ta theo dõi và ghi nhận được rằng thời gian sống của một loại bóng đèn có phân phối mũ với, với thời gian sống trung bình (kỳ vọng) là 150h. Tính tỷ lệ loại bóng đèn này có tuổi thọ từ 145h đến 160h.
Giải:
Gọi \(X\) là tuổi thọ của loại bóng đèn này, \(X\sim exp(1/150)\) \[P(145\le X \le 160) = \int_{145}^{160}\frac{1}{150}e^{\frac{-x}{150}}dx\]
Biến ngẫu nhiên \(X\) được gọi là có phân phối chuẩn tắc nếu hàm mật độ của nó là: \[f(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\] Vậy \[P(a\le X \le b) = \int_a^b\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx \tag{1}\] Khi đó \(X\) được ký hiệu là \(X \sim N(0,1)\) với kỳ vọng và phương sai của \(X\) lần lượt là: \(E(X) = 0, Var(X) = 1\).
Tuy nhiên việc tính tích phân (1) tương đối mất thời gian nên chúng ta sẽ làm như sau:
Đặt \[\Phi(t) = \frac{1}{\sqrt{2\pi}}\int_0^t e^{-\frac{x^2}{2}}dx\] thì: \[\frac{1}{\sqrt{2\pi}}\int_a^b e^{-\frac{x^2}{2}}dx =\frac{1}{\sqrt{2\pi}}\int_0^b e^{-\frac{x^2}{2}}dx-\frac{1}{\sqrt{2\pi}}\int_0^a e^{-\frac{x^2}{2}}dx \\ =\Phi(b) - \Phi(a)\]
Lưu ý: \(\Phi(-t) = \frac{1}{\sqrt{2\pi}}\int_0^{-t} e^{-\frac{x^2}{2}}dx = -\Phi(t)\)
Ví dụ: Cho \(X\sim N(0,1)\). Tính:
Giải:
\[P(1.55\le X \le 2.22) = \frac{1}{\sqrt{2\pi}}\int_{1.55}^{2.22} e^{-\frac{x^2}{2}}dx = \Phi(2.22) - \Phi(1.55)=\] \[P(X > -1.8) =P(-1.8 \le X < \infty) =\Phi(\infty) - \Phi(-1.8)=\Phi(\infty) + \Phi(1.8) = \]
Biến ngẫu nhiên \(X\) được gọi là có phân phối chuẩn (normal distribution) nếu hàm mật độ của bnn này là: \[f(x)= \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\] Khi đó \(X\) được ký hiệu là \(X \sim N(\mu,\sigma^2)\) với kỳ vọng và phương sai của \(X\) lần lượt là: \(E(X) = \mu, Var(X) = \sigma^2\).
và \[P(\alpha\le X \le \beta) = \int_\alpha^\beta\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx\]
Đây là một tích phân tương đối phức tạp!
Đặt \(Z = \frac{X - \mu}{\sigma}\), khi đó \(Z \sim N(0,1)\) và chúng ta sẽ tính xác suất của \(X\) theo xác suất của \(Z\). Nghĩa là:
\[P(\alpha\le X \le \beta) = P\left(\frac{\alpha-\mu}{\sigma}\le Z \le \frac{\beta-\mu}{\sigma}\right)\\=\Phi\left(\frac{\beta-\mu}{\sigma}\right)-\Phi\left(\frac{\alpha-\mu}{\sigma}\right)\]
Ví dụ: Cho \(X\sim N(\mu=6,\sigma^2=9)\). Tính:
Giải:
Đặt: \(Z = \frac{X-6}{3}\). Nên: \[P(3.6\le X\le 9.3) = P(-0.8\le Z \le 1.1) = \Phi(1.1) - \Phi(-0.8)=\Phi(1.1) + \Phi(0.8)\]
\[P(X \ge 7.2) = P(7.2\le X \le +\infty) = P(0.4\le Z \le +\infty) = \Phi(\infty)-\Phi(0.4)\]
Biến ngẫu nhiên \(X\) được gọi là có phân phối chi bình phương với \(n\) bậc tự do nếu hàm mật độ xác suất là: \[f(x) = \frac{1}{2^{n/2}\Gamma(n/2)}x^{\frac{n}{2}-1}e^{-x/2} \qquad \forall x > 0\] Với \[\Gamma(x) = \int_0^\infty t^{x-1}e^{-t}dt\] khi đó \(X\) được ký hiệu: \(X \sim \chi_n^2\) (đọc: \(X\) là biến ngẫu nhiên có phân phối Chi bình phương với \(n\) bậc tự do). Vậy \[P(a\le X\le b)=\int_a^b\frac{1}{2^{n/2}\Gamma(n/2)}x^{\frac{n}{2}-1}e^{-x/2}dx\]
Lưu ý:
Cho \(X\sim \chi^2(6)\). Tính:
Giải:
\[P(2\le X \le 6)=\int_2^6\frac{1}{16}x^{2}e^{-x/2}dx\]
\[P(X\ge 7) = \int_7^{+\infty}\frac{1}{16}x^{2}e^{-x/2}dx\]
Biến ngẫu nhiên \(X\) được gọi là có phân phối student với \(n\) bậc tự do nếu hàm mật độ của nó là:
\[f(x) = \frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi} \Gamma(\frac{n}{2})} \left( 1 + \frac{x^2}{n} \right)^{-\frac{n+1}{2}}\]
Khi đó \(X\) được ký hiệu là: \(X \sim t_n\) (đọc: \(X\) là biến ngẫu nhiên có phân phối Student với \(n\) bậc tự do). Vậy:
\[P(a\le X \le b) = \int_a^b\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi} \Gamma(\frac{n}{2})} \left( 1 + \frac{x^2}{n} \right)^{-\frac{n+1}{2}}dx\] Lưu ý: Nếu \(Z\sim N(0,1), V \sim \chi_n^2\) thì \(T = \frac{Z}{\sqrt{V/n}} \sim t_n\).
Cho \(X\sim t_7\). Tính \(P(-2.635 \le X\le 2.635)\)
\[f(x) = \frac{\Gamma(4)}{\sqrt{7\pi}\Gamma(7/2)}\left(1+\frac{x^2}{7} \right)^{-4}\]
\[P(-2 \le X\le 2)=\int_{-2.365}^{2.365}\frac{\Gamma(4)}{\sqrt{7\pi}\Gamma(7/2)}\left(1+\frac{x^2}{7} \right)^{-4}dx\]
Một số khái niệm:
Lưu ý: Mẫu tổng quát chính là mô hình của việc khảo sát.
Thống kê mẫu (sample statistic): Là một hàm của các biến ngẫu nhiên trong mẫu tổng quát.
Một số thống kê phổ biến: \[ \begin{align*} \overline{X} = &\frac{1}{n}\sum_{i=1}^nX_i\\ S^2= &\frac{1}{n-1}\sum_{i=1}^n\left(X_i-\overline{X}\right)^2 \end{align*} \]
\[ \begin{align*} E(\overline{X}) &= E\left(\frac{1}{n}\sum_{i=1}^nX_i\right)\\ &= \frac{1}{n}E\left(\sum_{i=1}^nX_i\right)\\ &= \frac{1}{n}\sum_{i=1}^nE(X_i)=E(X) \end{align*} \]
\[ \begin{align*} E(S^2)= &E\left(\frac{1}{n-1}\sum_{i=1}^n\left(X_i-\overline{X}\right)^2\right)\\ =&\frac{1}{n-1}\left(\sum_{i=1}^n\left(X_i-\overline{X}\right)^2\right)\\ =&\frac{1}{n-1}(n-1)\sigma^2 = \sigma^2 \end{align*} \] Do \(\sum_{i=1}^n\left(X_i-\overline{X}\right)^2\) có phân phối Chi bình phương với \((n-1)\) bậc tự do.
Giả sử \(X_1,X_2\dots,X_n\) là các biến ngẫu nhiên độc lập cùng phân phối chuẩn với \(E(X_i) = \mu\) và \(Var(X_i) = \sigma^2\)).
Định lý Lindeberg-Lévy: Khi \(n\) tiến đến vô cùng thì:
\[\overline{X}\sim N(\mu,\frac{\sigma^2}{n})\] Chúng ta sẽ chuyển về phân phối chuẩn tắc:
\[P\left(|Z| \le z_{\alpha/2} \right) = \gamma\]
\[P\left(|Z| \le z_{\alpha/2} \right) = \gamma\] \[P\left(-z_{\alpha/2}\le Z \le z_{\alpha/2} \right) = \gamma\] \[P\left(-z_{\alpha/2}\le \frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \le z_{\alpha/2} \right) = \gamma\]
\[P\left(\overline{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \le \mu\le \overline{X}+ z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right) = \gamma\]
Ví dụ: Thu thập dữ liệu về trọng lượng của 36 sản sản phẩm chúng ta thu được bảng số liệu sau:
\[ \begin{array}{|c|c|c|c|c|c|} \hline \text{Trọng lượng(g)} & 165&170&180&190&195 \\ \hline \text{Số sản phẩm} & 3& 7& 16& 8& 2 \\ \hline \end{array} \] Giả sử trọng lượng của loại sản phẩm này có phân phối chuẩn. Với độ tin cậy \(\gamma =95\%\), ước lượng:
Giải
\[\overline{x}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\le \mu\le \overline{x}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\] Vậy: 177.0325 \(\le \mu\le\) 182.6897
Vậy trọng lượng trung bình của loại sản phẩm này nằm trong khoảng từ 177.0325(g) đến 182.6897(g) với độ tin cậy 95%.
Vậy trọng lượng trung bình tối đa của loại sản phẩm này là 182.2349(g) với độ tin cậy 95%.
\[\varepsilon = z_{\alpha/2}\frac{s}{\sqrt{n}}\] được gọi là sai số của bài toán ước lượng, trong công thức này, chúng ta thấy có sự đánh đổi giữa: sai số, độ tin cậy và cỡ mẫu. Ví dụ, với ví dụ trên ta có:
\(n= \left(\frac{s\times z_{\alpha/2}}{\varepsilon} \right)^2 =\) 46.0853
\(z_{\alpha/2} = \frac{\varepsilon\sqrt{n}}{s}=\) 1.6332, nên \(\gamma =\) 0.8969, vậy với sai số là 2(g) và cỡ mẫu là 50 thì độ tin cậy của bài toán ước lượng là 89.69%
Gọi \(p\) là tỷ lệ (phần tử có tính chất A) của tổng thể.
\[\hat{p} - z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\le p\le \hat{p} + z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]
\[p\le\hat{p} + z_{\alpha}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]
\[p\ge\hat{p} - z_{\alpha}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]
Ví dụ: Thu thập dữ liệu về trọng lượng của 36 sản sản phẩm chúng ta thu được bảng số liệu sau:
\[ \begin{array}{|c|c|c|c|c|c|} \hline \text{Trọng lượng(g)} & 165&170&180&190&195 \\ \hline \text{Số sản phẩm} & 3& 7& 16& 8& 2 \\ \hline \end{array} \] Những sản phẩm được gọi là đạt chất lượng nếu trọng lượng nằm trong khoảng từ 170g đến 190g. Với độ tin cậy 95%:
Giải:
Gọi \(p\) là tỷ lệ sản phẩm đạt chất lượng của loại sản phẩm này.
\[0.86 - 1.96\sqrt{\frac{0.86(0.14)}{36}}\le p\le 0.86 + 1.96\sqrt{\frac{0.86(0.14)}{36}}\\ 0.7467\le p\le 0.9733\]
Vậy tỷ lệ sản phẩm đạt chất lượng của loại sản phẩm này nằm trong khoảng từ 74.67% đến 97.33% với độ tin cậy 95%.
Vậy tỷ lệ tối thiểu của sản phẩm đạt chất lượng là 76.49% với độ tin cậy là 95%.
\[\varepsilon=z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]
được gọi là sai số của bài toán ước lượng (tỷ lệ), trong công thức này chúng ta cũng phải đánh đổi giữa sai số, độ tin cậy và cỡ mẫu. Với ví dụ trên:
\(\varepsilon = 0.1133\)
Nếu muốn sai số là 0.1 và độ tin cậy giữ nguyên thì cỡ mẫu sẽ là bao nhiêu? \[n=\left(\frac{z_{\alpha/2}}{\varepsilon} \right)^2\hat{p}(1-\hat{p}) = 46.25\]
Nếu muốn sai số là 0.1 và cỡ mẫu là \(n=30\) thì độ tin cậy là bao nhiêu?
\[z_{\alpha/2}=\varepsilon\sqrt{\frac{n}{\hat{p}(1-\hat{p})}}= 1.58\]
nên \(\gamma = 0.8859\), vậy với cỡ mẫu là 30 và sai số là 0.1 thì độ tin cậy của bài toán ước lượng là 88.59%.
Gọi \(\sigma^2\) là phương sai của tổng thể \[\frac{(n-1)S^2}{\chi^2_{n-1,\alpha/2}}\le \sigma^2 \le\frac{(n-1)S^2}{\chi^2_{n-1,1-\alpha/2}}\]
Ví dụ: Thu thập dữ liệu về trọng lượng của 36 sản sản phẩm chúng ta thu được bảng số liệu sau: \[ \begin{array}{|c|c|c|c|c|c|} \hline \text{Trọng lượng(g)} & 165&170&180&190&195 \\ \hline \text{Số sản phẩm} & 3& 7& 16& 8& 2 \\ \hline \end{array} \] Hãy ước lượng phương sai về trọng lượng của loại sản phẩm này với độ tin cậy 95%.
Trường hợp cỡ mẫu lớn hơn hoặc bằng 30
Gọi \(\mu\) là trung bình của tổng thể.
Với \(\alpha\) cho trước tra bảng \(Z_{\alpha/2}\)
\[\begin{cases}H_0: \mu = \mu_0\\ H_1 : \mu < \mu_0 \end{cases}\] \[Z = \frac{\bar{x}-\mu_0}{\sigma}\sqrt{n}\]
Với \(\alpha\) cho trước tra bảng \(Z_{\alpha}\)
\[\begin{cases}H_0: \mu = \mu_0\\ H_1 : \mu > \mu_0 \end{cases}\] \[Z = \frac{\bar{x}-\mu_0}{\sigma}\sqrt{n}\]
Với \(\alpha\) cho trước tra bảng \(Z_{\alpha}\)
Kiểm tra chiều cao (cm) của một loại cây trồng sau 1 năm người ta thu được bảng số liệu sau:
\[ \begin{array}{|c|c|c|c|c|c|c|} \hline \text{Chiều cao(cm)} & 10 - 14&14 - 17&17 - 21&21 - 24&24 - 27&27 - 31 \\ \hline \text{Số cây} & 6& 12& 14& 19& 10&3 \\ \hline \end{array} \]
Giải:
Gọi \(\mu\) là chiều cao trung bình của loại cây trồng này khi được 1 năm tuổi.
\[\begin{cases}H_0: \mu = 20(cm)\\ H_1 : \mu \ne 20(cm) \end{cases}\] Tính \(\bar{x} = 20,2109 ; s= 4,5468; \alpha = 4\% \to Z_{\alpha/2} = 2,055\) \[Z=\frac{\bar{x}-20}{s}\sqrt{64}= 0,37\] Do \(|Z| = 0,37 < Z_{\alpha/2} = 2,055\) nên không đủ cơ sở để bác bỏ \(H_0\), nghĩa là chiều cao trung bình của loại cây trồng này sau 1 năm là 20cm với mức ý nghĩa \(4\%\).
\[\begin{cases}H_0: \mu = 60(cm)\\ H_1 : \mu < 60(cm) \end{cases}\]
Trường hợp cỡ mẫu nhỏ hơn 30
Gọi \(\mu\) là trung bình của tổng thể.
Với \(\alpha\) cho trước tra bảng \(t_{n-1,\alpha}\)
\[\begin{cases}H_0: \mu = \mu_0\\ H_1 : \mu > \mu_0 \end{cases}\] \[T = \frac{\bar{x}-\mu_0}{S}\sqrt{n}\]
Với \(\alpha\) cho trước tra bảng \(t_{n-1,\alpha}\)
Với mức ý nghĩa \(\alpha\) tra bảng: \(Z_{\alpha/2}\)
\[\begin{cases}H_0: p = p_0\\H_1 : p< p_0\end{cases}\] \[Z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)}}\sqrt{n}\]
Với mức ý nghĩa \(\alpha\) tra bảng: \(Z_{\alpha}\)
\[\begin{cases}H_0: p = p_0\\H_1 : p> p_0\end{cases}\] \[Z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)}}\sqrt{n}\]
Với mức ý nghĩa \(\alpha\) tra bảng: \(Z_{\alpha}\)
Ví dụ: Kiểm tra chiều cao (cm) của một loại cây trồng sau 1 năm người ta thu được bảng số liệu sau:
\[ \begin{array}{|c|c|c|c|c|c|c|} \hline \text{Chiều cao(cm)} & 10.8 - 14.2&14.2 - 17.6&17.6 - 21&21 - 24.3&24.3 - 27.7&27.7 - 31.1 \\ \hline \text{Số cây} & 6& 12& 14& 19& 10&3 \\ \hline \end{array} \] Những cây có chiều cao trên 24.3cm gọi là những cây phát triển tốt. Có người cho rằng tỷ lệ cây phát triển tốt là 20%, phát biểu này đúng không với mức ý nghĩa 3%.
Gọi \(p\) là tỷ lệ cây phát triển tốt.
\(\hat{p}=13/64 = 0.2031\)
\[\begin{cases}H_0: p=20\% \\H_1: p\ne 20\%\end{cases}\] \[Z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)}}\sqrt{n} = \]
Gọi \(\sigma^2\) là phương sai của tổng thể. \[\begin{cases}H_0: \sigma^2 = \sigma_0^2\\H_1: \sigma^2 \ne \sigma_0^2\end{cases}\] \[\chi^2=\frac{(n-1)S^2}{\sigma_0^2}\] Với \(\alpha\) cho trước tra bảng được \(\chi^2_{n-1,\alpha/2}\)
Nếu \(\chi^2 >\chi^2_{n-1,\alpha/2}\): Bác bỏ \(H_0\).
Ví dụ: Thu thập dữ liệu về trọng lượng của 36 sản sản phẩm chúng ta thu được bảng số liệu sau:
\[ \begin{array}{|c|c|c|c|c|c|} \hline \text{Trọng lượng(g)} & 165&170&180&190&195 \\ \hline \text{Số sản phẩm} & 3& 7& 16& 8& 2 \\ \hline \end{array} \] Những sản phẩm được gọi là đạt chất lượng nếu trọng lượng nằm trong khoảng từ 170g đến 190g.
Kiểm định sự bằng nhau về trung bình của 2 tổng thể
\[\begin{cases}H_0: \mu_1 = \mu_2 \\H_1 : \mu_1 \ne \mu_2\end{cases}\] \[z = \frac{\bar{x}_1-\bar{x}_2}{\sqrt{\frac{S^2_1}{n_1}-\frac{S^2_2}{n_2}}}\] với độ tin cậy \(\gamma\) cho trước trang bảng được \(z_{\alpha/2}\)
Nếu \(|z|> z_{\alpha/2}\) bác bỏ \(H_0\).
Kiểm định bên trái
\[\begin{cases}H_0: \mu_1 = \mu_2 \\H_1 : \mu_1 < \mu_2\end{cases}\] \[z = \frac{\bar{x}_1-\bar{x}_2}{\sqrt{\frac{S^2_1}{n_1}-\frac{S^2_2}{n_2}}}\] với độ tin cậy \(\gamma\) cho trước trang bảng được \(z_{\alpha/2}\)
Nếu \(|z|> z_{\alpha/2}\) bác bỏ \(H_0\).
Định nghĩa: Là dãy số liệu mà thứ tự của nó được xắp xếp theo thứ tự thời gian.
Một cách tổng quát dãy số theo thời gian được tổ chức thành 1 bảng gồm 2 hàng như sau:
\[\begin{array}{|c|c|c|c|c|} \hline \text{T} & t_1&t_2&\dots&t_n \\ \hline Y_t & y_1& y_2& \dots& y_n \\ \hline \end{array}\]
Phân loại:
Ví dụ 1: FDI (đơn vị tính: Tỷ USD) của Việt Nam được ghi nhận như sau:
\[\begin{array}{|c|c|c|c|c|c|c|c|} \hline \text{Năm} & 2017 & 2018 & 2019 & 2020 & 2021 & 2022 & 2023 \\ \hline \text{FDI} & 17.50 & 19.10 & 20.38 & 19.98 & 19.74 & 22.40 & 23.18 \\ \hline \end{array}\]
Ví dụ 2: Tốc độ gió tại sân bay
Thông thường một dãy số thời gian được hình thành từ 4 yếu tố:
Một dãy số theo thời gian có thể được mô hình hóa bởi:
\[Y_t = T.S.C.I\] hoặc \[Y_t = T+S+C+I\]