BÀI GIẢNG

Lý Thuyết Xác Suất Thống Kê và Ứng Dụng

tmt

2025-02-27

Cần xem lại

  • Quy tắc đếm
    • Quy tắc cộng
    • Quy tắc nhân
    • Hoán vị
    • Chỉnh hợp
    • Tổ hợp
  • Tập hợp và các phép toán trên tập hợp
    • Giao các tập hợp
    • Hợp các tập hợp
    • Chứa trong
    • Chứa
    • Hiệu

Nội dung môn học

  1. Định nghĩa xác suất và một số công thức cơ bản.
  2. Biến ngẫu nhiên và các quy luật phân phối xác suất.
  3. Lý thuyết mẫu.
  4. Bài toán ước lượng.
  5. Bài toán kiểm định giả thuyết thống kê.
  6. Dãy số thời gian.
  7. Chỉ số.

Mộ số khái niệm cơ bản

  • Hiện tượng tất định: Là hiện tượng mà kết quả của nó sẽ được biết trước dựa trên những điều kiện ban đầu hay các quy luật đã được chứng minh bằng lý thuyết hoặc thực nghiệm.

Ví dụ 1: Đun nước đến \(100^o\)C trong điều kiện bình thường thì nước sẽ bốc hơi.

  • Hiện tượng ngẫu nhiên: Là hiện tượng mà kết quả của nó không thể biết trước cho đến khi nó kết thúc.

Ví dụ 2: Tung một con xúc xắc, Bán một hợp đồng bảo hiểm.

Mộ số khái niệm cơ bản (tt)

  • Phép thử ngẫu nhiên: Phép thử ngẫu nhiên là một quá trình hoặc một thí nghiệm hoặc một quan sát mà kết quả của nó không thể dự đoán trước.
  • Không gian mẫu: Là tập hợp tất cả các khả năng xảy ra của một phép thử.
  • Biến cố (sự kiện): Là một tập con của không gian mẫu.
  • Biến cố sơ cấp: Là một phần tử của không gian mẫu.

Lưu ý: Một cách tổng quát, chúng ta chỉ có 3 nhóm phép thử:

  • Tung xu.
  • Tung xúc xắc.
  • Chọn \(k\) phần tử từ \(n\) phần tử.

Mộ số khái niệm cơ bản (tt)

  • Ví dụ 1: Tung 1 đồng xu, \(\Omega =\{\text{X,N}\}\)
    • Mặt ngữa xuất hiện: \(A_1 = \{N\}\)
    • Mặt xấp xuất hiện: \(B_1 = \{X\}\)
  • Ví dụ 2: Tung 2 đồng xu, \(\Omega =\{\text{XX,NN,XN,NX}\}\)
    • Có mặt ngữa: \(A_2 = \{NN,XN,NX\}\)
    • Có cả mặt xấp và mặt ngữa: \(B_2 = \{XN,NX\}\)
    • Không có mặt ngữa: \(C_2 = \{XX\}\)
  • Ví dụ 3: Tung 1 xúc xắc, \(\Omega =\{1,2,3,4,5,6\}\)
    • Số nút chia hết cho 3: \(A_3 = \{3,6\}\)
    • Số nút chẵn: \(B_3 = \{2,4,6\}\)
    • Số nút lớn hơn 4: \(C_3 = \{5,6\}\)
    • Số nút
  • Ví dụ 4: Tung 2 xúc xắc, \(\Omega =\{(x,y)| 1\le x,y\le 6\}\)
    • Tổng số nút chia hết cho 5: \(A_4 =\{(1,4),(4,1),(2,3),(3,2),(5,5)\}\)
    • Tổng số nút chia hết cho 7: \(B_4 =\{(1,6),(6,1),(2,5),(5,2),(3,4),(4,3)\}\)
  • Ví dụ 4: Một kho hàng có 8 sản phẩm loại A và 5 sản phẩm loại B, chọn ngẫu nhiên 3 sản phẩm để bán, \(\Omega =\{(x,y,z)| x,y,z \text{ là sản phẩm trong kho}\}\)

Xác suất theo quan điểm cổ điển

Thực hiện phép thử \(\tau\), có không gian mẫu là \(\Omega\), \(A\) là là một biến cố của phép thử này. Xác suất của biến cố \(A\) được ký hiệu là \(P(A)\) và: \[P(A) = \frac{|A|}{|\Omega|}\] Với \(|A|, |\Omega|\) lần lượt là số phần tử của tập hợp \(A\)\(\Omega\).

Xác suất theo quan điểm thống kê

Thực hiện phép thử \(\tau\) \(n\) lần. Gọi \(A\) là biến cố mà chúng ta quan tâm. Khi đó tỷ số \(k/n\) (với \(k\) là số lần xuất hiện biến cố \(A\) trong \(n\) lần thử) được gọi là tần xuất hiện biến cố \(A\). Khi đó xác suất để xuất hiện biến cố \(A\) được định nghĩa: \[P(A) = \lim_{n\to\infty}\frac{k}{n}\] Chúng ta có thể hiểu: \(P(A) \approx k/n\) khi \(n\) đủ lớn.

Xác suất theo quan điểm thống kê (tt)

Ví dụ 1: Tính xác suất xuất hiện mặt ngữa của đồng xu:

Người thực hiện Số lần thử Số lần xuất hiện mặt ngữa Tần suất
Buffon 4040 2048 0,5069
Pearson 12.000 6019 0,5016
Pearson 24.000 12.012 0,5005

Ví dụ 2: Quan sát 10.000 đứa trẻ được sinh trong 1 cộng đồng dân tộc thiểu số, người ta thấy có 5.100 bé trai. Vậy xác suất sinh bé trai của cộng đồng người này là \(51\%\).

Ví dụ 3: Chọn ngẫu nhiên 200 sản phẩm đi kiểm tra người ta phát hiện có 50 sản phẩm không đạt chất lượng, vậy xác suất không đạt chất lượng của sản phẩm này là \(25\%\).

Một số khái niệm

  • Biến cố không thể: Là biến cố không thể xảy ra trong 1 phép thử.
  • Biến cố chắc chắn: Là biến cố luôn luôn xảy ra trong 1 phép thử.

Ví dụ: Một nhóm có 7 người nam và 2 người nữ, chọn 3 người để thực hiện một nhiệm vụ được giao. Xét các biến cố: Có 3 người nữ, có ít nhất một người nam.

Một số khái niệm (tt)

  • Biến cố xung khắc: 2 biến cố \(A, B\) được gọi là xung khắc nếu chúng không thể xảy ra trong một lần thử.
  • Biến cố đối lập: 2 biến cố \(A, B\) được gọi là đối lập nếu 2 biến cố này xung khắc và \(A\cup B = \Omega\).

Ví dụ: Tung một con xúc xắc. Xét các biến cố mặt chẵn suất hiện, mặt lẻ xuất hiện, số nút chia hết cho 3 xuất hiện.

Lưu ý: Biến cố đối của biến cố \(A\) được ký hiệu là \(\bar{A}\)\(P(A)+P(\bar{A}) = 1\).

Một số khái niệm (tt)

  • Biến cố độc lập: Biến cố \(A\)\(B\) được gọi là độc lập nếu xác suất của biến cố này xảy ra không ảnh hưởng bởi xác suất để biến cố kia xảy ra là bao nhiêu.

Ví dụ 1: Quan sát 2 sinh viên đi thi môn Toán cao cấp, gọi \(A, B\) lần lượt là các biến cố sinh viên thứ nhất thi đậu và sinh viên thứ 2 thi đậu, xét tính độc lập của 2 biến cố này.

Ví dụ 2: Một chùm chìa khóa có 5 chìa (rất giống nhau về hình thức), nhưng trong đó chỉ có 3 chìa mở được cửa. Gọi \(A_1,A_2\) lần lượt là biến cố mở được cửa ở lần mở thứ nhất và thứ 2, xét tính độc lập của 2 biến cố này.

Công thức nhân xác suất

Định nghĩa: Biến cố \(C\) được gọi là tích của biến cố \(A\) và biến cố \(B\), ký hiệu là \(C= A\cap B\) hoặc \(C=AB\) nếu: Biến cố \(C\) xảy ra khi biến cố \(A\) và biến cố \(B\) cùng xảy ra.

Công thức nhân xác suất: \[P(AB) = P(A).P(B|A)\] trong trường hợp 2 biến cố \(A, B\) độc lập với nhau thì công thức trở thành: \[P(AB) = P(A).P(B)\]

Ví dụ 1: Có 2 kho hàng, kho thứ nhất có 5 sản phẩm đạt chất lượng và 2 sản phẩm không đạt chất lượng, kho thứ 2 có 6 sản phẩm đạt chất lượng và 1 sản phẩm không đạt chất lượng, lấy mỗi kho 1 sản phẩm. Tính xác suất cả 2 sản phẩm được chọn đều là sản phẩm tốt.

Ví dụ 2: Một chùm chìa khóa có 5 chìa (rất giống nhau), trong đó chỉ có 3 chìa mở được cửa. Tính xác suất để mở được cửa ở lần mở thứ I và thứ II.

Công thức cộng xác suất

Định nghĩa: Biến cố \(C\) được gọi là tổng của biến cố \(A\) và biến cố \(B\), ký hiệu là \(C=A+B\) hoặc \(C=A\cup B\) nếu: Biến cố \(C\) xảy ra khi biến cố \(A\) xảy ra hoặc biến cố \(B\) xảy ra.

Công thức cộng xác suất: \[P(A+B) = P(A)+P(B)-P(AB)\] Nếu \(A,B\) là những biến cố xung khắc thì công thức sẽ trở thành: \[P(A+B) = P(A)+P(B)\] Ví dụ: Khảo sát một nhóm sinh viên người ta thu được thông tin sau, có 50% sinh viên thích bóng đá, 40% sinh viên thích bóng rổ và 15% sinh viên thích cả 2 môn. Chọn ngẫu nhiên một người tính xác suất:

  1. Chọn được người thích bóng đá hoặc bóng rổ.
  2. Chọn được người chỉ thích bóng rổ.
  3. Chọn được người không thích môn nào

Ví dụ

Có 3 vận động viên bắn cung, đưa cho mỗi người một mũi tên và yêu cầu họ bắn vào mục tiêu. Biết rằng xác suất bắn trúng mục tiêu của từng người lần lượt là 0.4; 0.6; 0.8. Tính xác suất để:

  1. Cả 3 người đều bắn trúng mục tiêu.
  2. Chỉ có người thứ 2 bắn trúng mục tiêu.
  3. Người thứ 2 bắn trúng mục tiêu.
  4. Có ít nhất một người bắn trúng mục tiêu.
  5. Có nhiều nhất một người bắn trúng mục tiêu.

Giải:

Gọi \(A_1,A_2,A_3\) lần lượt là biến cố người thứ I,II và thứ III bắn trúng mục tiêu. Ta có: \(P(A_1)=0.4,P(A_2)=0.6,P(A_3)=0.8\)

Công thức XSĐĐ và công thức Bayes

Cho \(\{A_1, A_2,\dots,A_n\}\) là một hệ biến cố đầy đủ và xung khắc từng đôi, \(B\) là biến cố có thể đồng thời xảy ra với các biến cố ở trên. Khi đó: \[P(B) = P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+\dots+P(A_n)P(B|A_n)\] \[P(A_i|B)=\frac{P(A_i)P(B|A_i)}{P(B)}\]

Ví dụ: Có 3 loại vacine ngừa cúm trên thị trường, tỷ lệ có kháng thể của từng loại vacine tương ứng là 0.65; 0.75 và 0.8. Một khu vực dân cư được tiêm 3 loại vacine này với tỷ lệ tương ứng như sau: 30% dân số được tiêm vacine thứ I, 25% dân số được tiêm vacine thứ II và 45% dân số còn lại được tiêm vacine thứ III.

  1. Tính tỷ lệ dân số có kháng thể cúm.
  2. Chọn ngẫu nhiên một người và chọn được người có kháng thể cúm, tính xác suất người này được tiêm vacine loại II.

Biến ngẫu nhiên

Khái niệm: Biến ngẫu nhiên là biến số mà giá trị của nó có được từ một phép thử ngẫu nhiên.

ví dụ:

  • Một nhóm có 7 nam và 6 người nữ chọn ngẫu nhiên 4 người, gọi \(X\) là số người nữ trong 4 người được chọn.
  • Trong trò chơi Bầu - Cua - Tôm - Cá, gọi \(X\) là số con cá xuất hiện trong 1 ván của trò chơi này.
  • Chọn ngẫu nhiên một sinh viên, gọi \(X\) là chiều cao của người này.
  • Chọn ngẫu nhiên một đứa trẻ ở độ tuổi mẫu giáo, gọi \(X\) là cân nặng của đứa trẻ này.

Biến ngẫu nhiên (tt)

  • Biến ngẫu nhiên rời rạc: Là biến ngẫu nhiên mà tập hợp những giá trị mà nó có thể nhận là đếm được (số phần tử).
  • Biến Ngẫu Nhiên Liên Tục: Là biến ngẫu nhiên mà tập hợp những giá trị mà nó có thể nhận là một đoạn trên trục số thực.

Biến ngẫu nhiên rời rạc

-Bảng Phân phối xác suất: Là bảng có cấu trúc như sau:

\[ \begin{array}{|c|c|c|c|c|c|} \hline X & x_1 & x_2 & x_3 & \dots & x_n \\ \hline P(X=x_i) & p_1 & p_2 & p_3 & \dots & p_n \\ \hline \end{array} \] Ví dụ: Trong kho có 4 sản phẩm loại A và 2 sản phẩm loại B, lấy 2 sản phẩm bất kỳ ra giao cho khách, gọi \(X\) là số sản phẩm loại A khách nhận được, lập bảng phân phối xác suất cho X.

\[ \begin{array}{|c|c|c|c|} \hline X & 0 & 1 & 2 \\ \hline P(X=x) & 1/15 & 8/15 & 6/15 \\ \hline \end{array} \] \[P(X=x) = \frac{C_4^xC_2^{2-x}}{C_6^2}\] và $ E(X) = $

Một số đặc trưng của biến ngẫu nhiên

  • Kỳ vọng: \[E(X) = \sum_{i=1}^nx_ip_i\]
  • Phương sai: \[Var(X)=\sum_{i=1}^n\left[x_i-E(X)\right]^2p_i\]

Phân phối Nhị thức

Biến ngẫu nhiên \(X\) được gọi là có phân phối nhị thức (ký hiệu là \(X \sim B(n,p)\)) nếu thỏa các điều sau:

  • \(X\) là số lần thành công của một dãy phép thử độc lập.
  • Mỗi phép thử (trong dãy phép thử) chỉ có 2 khả năng (thành công/thất bại).
  • Xác suất thành công của mỗi phép thử (trong dãy phép thử) đều bằng \(p\).

Khi đó xác suất để \(X\) nhận giá trị \(x\) được tính bằng công thức sau: \[P(X= x) = C_n^xp^x(1-p)^{n-x}\]\(E(X) = np, Var(X) = np(1-p)\)

Ví dụ 1

Một đề thi trắc nghiệm có 15 câu hỏi, mỗi câu hỏi có 4 phương án trong đó có 1 đáp án. Theo dữ liệu thống kê thì xác suất trả lời đúng cho mỗi câu hỏi là 70%. Một sinh viên tham gia trả lời đề thi này, tính xác suất sinh viên này:

  1. Trả lời được 3 câu hỏi.
  2. Trả lời được nhiều hơn 12 câu hỏi.
  3. Thi đậu (khi trả lời trên 50% số lượng câu hỏi)

Giải:

Gọi \(X\) là số câu trả lời đúng của sinh viên này, \(X\sim B(15,0.7)\)

  1. \(P(X=3) = C_{15}^3(0.7)^3(0.3)^{12}\)

  2. \(P(X>12) = C_{15}^{13}(0.7)^{13}(0.3)^{2} + C_{15}^{14}(0.7)^{14}(0.3)^{1} + C_{15}^{15}(0.7)^{15}(0.3)^{0}\)

  3. \(P(X>7) = P(X=8)+P(X=9)+P(X=10)+P(X=11)+P(X=12)+P(X=13)+P(X=14)+P(X=15)\)

Ví dụ 2

Tỷ lệ thi đậu môm học A của sinh viên là 70%, chọn ngẫu nhiên 12 sinh viên. Tính xác suất để:

  1. Có 5 sinh viên thi đậu.
  2. Có ít nhất 2 sinh viên thi đậu.

Phân phối Siêu bội

Một tập hợp gồm \(N\) phần tử, trong đó có \(M\) phần tử có tính chất A, chọn \(n\) phần tử từ tập hợp này. Gọi \(X\) là số phần tử có tính chất A trong \(n\) phần tử được chọn, trong trường hợp này \(X\) được gọi là có phân phối siêu bội và được ký hiệu: \(X \sim H(N,M,n)\)\[P(X = x) = \frac{C_M^xC_{N-M}^{n-x}}{C_N^n}\]\(E(X) = n\frac{M}{N}, Var(X) = n\frac{M}{N}(1-\frac{M}{N})\frac{N-n}{N-1}\)

Một lớp học có 7 sinh viên nam và 5 sinh viên nữ, chọn ngẫu nhiên 3 người lên trình bày về một vấn đề. Gọi \(X\) là số sinh viên nam trong 3 người được chọn, lập bảng phân phối xác suất cho \(X\).

Giải:

\(X\sim H(12,7,3)\) \[P(X=x)= \frac{C_7^xC_{5}^{3-x}}{C_{12}^3}\]

\[ \begin{array}{|c|c|c|c|c|} \hline X & 0 & 1 & 2 & 3 \\ \hline P(X=x) & & & & \\ \hline \end{array} \]

Phân phối hình học

Thực hiện một dãy phép thử thỏa các điều kiện sau:

  • Mỗi phép thử chỉ có 2 khả năng: “thành công” hoặc “thất bại”, xác suất “thành công” trong mỗi lần thử là \(p\).
  • Các phép thử là độc lập nhau.

Chúng ta sẽ thực hiện phép thử này cho đến khi nào “thành công” thì dừng, gọi \(X\) là số lần thử khi đó \(X\) được gọi là biến ngẫu nhiên có phân phối hình học và được ký hiệu là \(X\sim Geo(p)\) và: \[P(X=x) = (1-p)^{k-1}p\]

Phân phối hình học

Ví dụ: Một kho hàng với tỷ lệ sản phẩm không đạt chất lượng là 15%, chúng ta sẽ lấy lần lượt từng sản phẩm ra để bán, tính xác suất sản phẩm thứ 5 là sản phẩm không đạt chất lượng.

Giải:

Gọi \(X\) là số lần vào kho lấy hàng cho đến khi lấy phải sản phẩm không đạt chất lượng.

Khi đó \(X\sim Geo(0.15)\). \[P(X = 5) = (0.85)^4(0.15)\]

Phân phối Poisson

Thực hiện/quan sát một phép thử \(\tau\), gọi \(X\) là số lần biến cố \(A\) xuất hiện trong mỗi khoảng thời gian ấn định trước, khi đó \(X\) được gọi là biến ngẫu nhiên có phân phối Poisson và được ký hiệu là: \(X \sim P(\lambda)\)\[P(X=x)=\frac{\lambda^xe^{-\lambda}}{x!}\] Với \(\lambda\) là số lần suất hiện trung bình của biến cố \(A\) trong khoảng thời gian đã ấn định.

Ví dụ: Một tổng đài điện thoại nghi nhận được thông tin sau: Trong 1 giờ trung bình họ nhận được 5 cuộc điện thoại. Tính xác suất:

  1. Có 3 cuộc điện thoại trong 1 giờ.
  2. Có nhiều hơn 5 cuộc điện thoại trong 1 giờ.
  3. Không có cuộc điện thoại nào trong 1 giờ?

Giải: Gọi \(X\) là số cuộc điện thoại gọi đến tổng đài trong 1 giờ, \(X\sim P(5)\)

  1. \(P(X=3)\)
  2. \(P(X > 5) = 1-P(X\le 5) = 1- \left[P(X=0)+P(X=1)+P(X=2)+P(X=3)+P(X=4)++P(X=5)\right]\)

Biến ngẫu nhiên liên tục

Hàm mật độ xác suất của biến ngẫu nhiên (liên tục) \(X\): Là hàm số \(f(x)\) thỏa:

  • \(f(x) \ge 0\)
  • \(\int_{-\infty}^{+\infty}f(x)dx = 1\)

Khi đó xác suất của biến ngẫu nhiên \(X\) được tính theo công thức sau: \[P(a \le X \le b) = \int_a^bf(x)dx\] Kỳ vọng của biến ngẫu nhiên (liên tục): \[E(X) = \int_{-\infty}^{+\infty}{xf(x)dx}\]

Phương sai của biến ngẫu nhiên (liên tục): \[Var(X) = \int_{-\infty}^{+\infty}{[x-E(x)]^2f(x)dx}\]

Phân phối mũ

Biến ngẫu nhiên \(X\) được gọi là có phân phối mũ với tham số \(\lambda\) nếu hàm mật độ xác suất là: \[f(x) = \lambda e^{-\lambda x}\] Khi đó \(X\) được ký hiệu là \(X \sim exp(\lambda)\).

Với kỳ vọng là: \(E(X) = \frac{1}{\lambda}\)

và phương sai là:\(Var(X) = \frac{1}{\lambda^2}\)

Ví dụ: Người ta theo dõi và ghi nhận được rằng thời gian sống của một loại bóng đèn có phân phối mũ với, với thời gian sống trung bình (kỳ vọng) là 150h. Tính tỷ lệ loại bóng đèn này có tuổi thọ từ 145h đến 160h.

Giải:

Gọi \(X\) là tuổi thọ của loại bóng đèn này, \(X\sim exp(1/150)\) \[P(145\le X \le 160) = \int_{145}^{160}\frac{1}{150}e^{\frac{-x}{150}}dx\]

Phân phối chuẩn tắc

Biến ngẫu nhiên \(X\) được gọi là có phân phối chuẩn tắc nếu hàm mật độ của nó là: \[f(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\] Vậy \[P(a\le X \le b) = \int_a^b\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx \tag{1}\] Khi đó \(X\) được ký hiệu là \(X \sim N(0,1)\) với kỳ vọng và phương sai của \(X\) lần lượt là: \(E(X) = 0, Var(X) = 1\).

Tuy nhiên việc tính tích phân (1) tương đối mất thời gian nên chúng ta sẽ làm như sau:

Đặt \[\Phi(t) = \frac{1}{\sqrt{2\pi}}\int_0^t e^{-\frac{x^2}{2}}dx\] thì: \[\frac{1}{\sqrt{2\pi}}\int_a^b e^{-\frac{x^2}{2}}dx =\frac{1}{\sqrt{2\pi}}\int_0^b e^{-\frac{x^2}{2}}dx-\frac{1}{\sqrt{2\pi}}\int_0^a e^{-\frac{x^2}{2}}dx \\ =\Phi(b) - \Phi(a)\]

Lưu ý: \(\Phi(-t) = \frac{1}{\sqrt{2\pi}}\int_0^{-t} e^{-\frac{x^2}{2}}dx = -\Phi(t)\)

Ví dụ: Cho \(X\sim N(0,1)\). Tính:

  1. \(P(1.5\le X \le 2.2)\)
  2. \(P(X > -1.8)\)

Giải:

\[P(1.55\le X \le 2.22) = \frac{1}{\sqrt{2\pi}}\int_{1.55}^{2.22} e^{-\frac{x^2}{2}}dx = \Phi(2.22) - \Phi(1.55)=\] \[P(X > -1.8) =P(-1.8 \le X < \infty) =\Phi(\infty) - \Phi(-1.8)=\Phi(\infty) + \Phi(1.8) = \]

Phân phối Chuẩn

Biến ngẫu nhiên \(X\) được gọi là có phân phối chuẩn (normal distribution) nếu hàm mật độ của bnn này là: \[f(x)= \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\] Khi đó \(X\) được ký hiệu là \(X \sim N(\mu,\sigma^2)\) với kỳ vọng và phương sai của \(X\) lần lượt là: \(E(X) = \mu, Var(X) = \sigma^2\).

\[P(\alpha\le X \le \beta) = \int_\alpha^\beta\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx\]

Đây là một tích phân tương đối phức tạp!

Đặt \(Z = \frac{X - \mu}{\sigma}\), khi đó \(Z \sim N(0,1)\) và chúng ta sẽ tính xác suất của \(X\) theo xác suất của \(Z\). Nghĩa là:

\[P(\alpha\le X \le \beta) = P\left(\frac{\alpha-\mu}{\sigma}\le Z \le \frac{\beta-\mu}{\sigma}\right)\\=\Phi\left(\frac{\beta-\mu}{\sigma}\right)-\Phi\left(\frac{\alpha-\mu}{\sigma}\right)\]

Ví dụ: Cho \(X\sim N(\mu=6,\sigma^2=9)\). Tính:

  1. \(P(3.6\le X\le 9.3)\).
  2. \(P(X \ge 7.2)\).

Giải:

Đặt: \(Z = \frac{X-6}{3}\). Nên: \[P(3.6\le X\le 9.3) = P(-0.8\le Z \le 1.1) = \Phi(1.1) - \Phi(-0.8)=\Phi(1.1) + \Phi(0.8)\]

\[P(X \ge 7.2) = P(7.2\le X \le +\infty) = P(0.4\le Z \le +\infty) = \Phi(\infty)-\Phi(0.4)\]

Phân phối Chi bình phương

Biến ngẫu nhiên \(X\) được gọi là có phân phối chi bình phương với \(n\) bậc tự do nếu hàm mật độ xác suất là: \[f(x) = \frac{1}{2^{n/2}\Gamma(n/2)}x^{\frac{n}{2}-1}e^{-x/2} \qquad \forall x > 0\] Với \[\Gamma(x) = \int_0^\infty t^{x-1}e^{-t}dt\] khi đó \(X\) được ký hiệu: \(X \sim \chi_n^2\) (đọc: \(X\) là biến ngẫu nhiên có phân phối Chi bình phương với \(n\) bậc tự do). Vậy \[P(a\le X\le b)=\int_a^b\frac{1}{2^{n/2}\Gamma(n/2)}x^{\frac{n}{2}-1}e^{-x/2}dx\]

Lưu ý:

  • Nếu \(x\) là số nguyên thì: \(\Gamma(x)=(x-1)!\)
  • Nếu: \(Z_i\sim N(0,1)\) thì \(\sum_{i=1}^nZ_i^2 \sim \chi^2_n\).

Cho \(X\sim \chi^2(6)\). Tính:

  1. \(P(2\le X \le 6)\)
  2. \(P(X\ge 7)\)

Giải:

\[P(2\le X \le 6)=\int_2^6\frac{1}{16}x^{2}e^{-x/2}dx\]

\[P(X\ge 7) = \int_7^{+\infty}\frac{1}{16}x^{2}e^{-x/2}dx\]

Phân phối Student

Biến ngẫu nhiên \(X\) được gọi là có phân phối student với \(n\) bậc tự do nếu hàm mật độ của nó là:

\[f(x) = \frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi} \Gamma(\frac{n}{2})} \left( 1 + \frac{x^2}{n} \right)^{-\frac{n+1}{2}}\]

Khi đó \(X\) được ký hiệu là: \(X \sim t_n\) (đọc: \(X\) là biến ngẫu nhiên có phân phối Student với \(n\) bậc tự do). Vậy:

\[P(a\le X \le b) = \int_a^b\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi} \Gamma(\frac{n}{2})} \left( 1 + \frac{x^2}{n} \right)^{-\frac{n+1}{2}}dx\] Lưu ý: Nếu \(Z\sim N(0,1), V \sim \chi_n^2\) thì \(T = \frac{Z}{\sqrt{V/n}} \sim t_n\).

Cho \(X\sim t_7\). Tính \(P(-2.635 \le X\le 2.635)\)

\[f(x) = \frac{\Gamma(4)}{\sqrt{7\pi}\Gamma(7/2)}\left(1+\frac{x^2}{7} \right)^{-4}\]

\[P(-2 \le X\le 2)=\int_{-2.365}^{2.365}\frac{\Gamma(4)}{\sqrt{7\pi}\Gamma(7/2)}\left(1+\frac{x^2}{7} \right)^{-4}dx\]

Lý thuyết mẫu

Một số khái niệm:

  • Tổng thể (population): Là tập hợp tất cả các phần tử mà chúng ta cần nghiên cứu.
  • Biến (variable): Là một đặc điểm của một phần tử trong tổng thể.
  • Mẫu (Sample): Là một tập con của tổng thể.
    • Mẫu tổng quát: Là một vector ngẫu nhiên \(\{X_1,X_2,\dots,X_n\}\).
    • Mẫu cụ thể: Là một vector các giá trị mà mẫu tổng quát có thể nhận \(\{x_1,x_2,\dots,x_n\}\).

Lưu ý: Mẫu tổng quát chính là mô hình của việc khảo sát.

Lý thuyết mẫu (tt)

Thống kê mẫu (sample statistic): Là một hàm của các biến ngẫu nhiên trong mẫu tổng quát.

Một số thống kê phổ biến: \[ \begin{align*} \overline{X} = &\frac{1}{n}\sum_{i=1}^nX_i\\ S^2= &\frac{1}{n-1}\sum_{i=1}^n\left(X_i-\overline{X}\right)^2 \end{align*} \]

Uớc lượng điểm

\[ \begin{align*} E(\overline{X}) &= E\left(\frac{1}{n}\sum_{i=1}^nX_i\right)\\ &= \frac{1}{n}E\left(\sum_{i=1}^nX_i\right)\\ &= \frac{1}{n}\sum_{i=1}^nE(X_i)=E(X) \end{align*} \]

Uớc lượng điểm

\[ \begin{align*} E(S^2)= &E\left(\frac{1}{n-1}\sum_{i=1}^n\left(X_i-\overline{X}\right)^2\right)\\ =&\frac{1}{n-1}\left(\sum_{i=1}^n\left(X_i-\overline{X}\right)^2\right)\\ =&\frac{1}{n-1}(n-1)\sigma^2 = \sigma^2 \end{align*} \] Do \(\sum_{i=1}^n\left(X_i-\overline{X}\right)^2\) có phân phối Chi bình phương với \((n-1)\) bậc tự do.

Định Lý Lindeberg-Lévy

Giả sử \(X_1,X_2\dots,X_n\) là các biến ngẫu nhiên độc lập cùng phân phối chuẩn với \(E(X_i) = \mu\)\(Var(X_i) = \sigma^2\)).

Định lý Lindeberg-Lévy: Khi \(n\) tiến đến vô cùng thì:

\[\overline{X}\sim N(\mu,\frac{\sigma^2}{n})\] Chúng ta sẽ chuyển về phân phối chuẩn tắc:

\[P\left(|Z| \le z_{\alpha/2} \right) = \gamma\]

Định Lý Lindeberg-Lévy (tt)

\[P\left(|Z| \le z_{\alpha/2} \right) = \gamma\] \[P\left(-z_{\alpha/2}\le Z \le z_{\alpha/2} \right) = \gamma\] \[P\left(-z_{\alpha/2}\le \frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \le z_{\alpha/2} \right) = \gamma\]

\[P\left(\overline{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \le \mu\le \overline{X}+ z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \right) = \gamma\]

Ước lượng trung bình của tổng thể

  • Ước lượng 2 phía \[\overline{x}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\le \mu\le \overline{x}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\]
  • Ước lượng tối đa \[\mu\le \overline{x}+z_{\alpha}\frac{\sigma}{\sqrt{n}}\]
  • Ước lượng tối thiểu \[\mu\ge\overline{x}-z_{\alpha}\frac{\sigma}{\sqrt{n}}\] nếu không có \(\sigma\) chúng ta sẽ thay \(\sigma\) bởi \(S\).

Ước lượng trung bình của tổng thể (tt)

Ví dụ: Thu thập dữ liệu về trọng lượng của 36 sản sản phẩm chúng ta thu được bảng số liệu sau:

\[ \begin{array}{|c|c|c|c|c|c|} \hline \text{Trọng lượng(g)} & 165&170&180&190&195 \\ \hline \text{Số sản phẩm} & 3& 7& 16& 8& 2 \\ \hline \end{array} \] Giả sử trọng lượng của loại sản phẩm này có phân phối chuẩn. Với độ tin cậy \(\gamma =95\%\), ước lượng:

  1. Trọng lượng trung bình của loại sản phẩm này.
  2. Ước lượng trọng lượng trung bình tối đa của loại sản phẩm này.

Ước lượng trung bình của tổng thể (tt)

Giải

  1. Gọi \(\mu\) là trọng lượng trung bình của loại sản phẩm này. Từ bảng số liệu ta có: \(\overline{x} =\) 179.8611; s = 8.6591; n = 36; \(\gamma =\) 0.95 \(\to z_{\alpha/2}=\) 1.96.

\[\overline{x}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\le \mu\le \overline{x}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\] Vậy: 177.0325 \(\le \mu\le\) 182.6897

Vậy trọng lượng trung bình của loại sản phẩm này nằm trong khoảng từ 177.0325(g) đến 182.6897(g) với độ tin cậy 95%.

Ước lượng trung bình của tổng thể (tt)

  1. Công thức lượng tối đa: \[\mu\le \overline{x}+z_{\alpha}\frac{\sigma}{\sqrt{n}}\] với \(\gamma = .95\) thì \(z_\alpha=\) 1.6449 thế số vào công thức: \(\mu \le\) 182.2349

Vậy trọng lượng trung bình tối đa của loại sản phẩm này là 182.2349(g) với độ tin cậy 95%.

Sai số của bài toán ước lượng TB

\[\varepsilon = z_{\alpha/2}\frac{s}{\sqrt{n}}\] được gọi là sai số của bài toán ước lượng, trong công thức này, chúng ta thấy có sự đánh đổi giữa: sai số, độ tin cậy và cỡ mẫu. Ví dụ, với ví dụ trên ta có:

  • \(\varepsilon =\) 2.8286(g)
  • Nếu muốn sai số là 2.5(g) và độ tin cậy giữ nguyên thì cỡ mẫu \(n\) là bao nhiêu?

\(n= \left(\frac{s\times z_{\alpha/2}}{\varepsilon} \right)^2 =\) 46.0853

  • Nếu muốn sai số là 2(g) và cỡ mẫu là \(n=50\) thì độ tin cậy của bài toán ước lượng là bao nhiêu:

\(z_{\alpha/2} = \frac{\varepsilon\sqrt{n}}{s}=\) 1.6332, nên \(\gamma =\) 0.8969, vậy với sai số là 2(g) và cỡ mẫu là 50 thì độ tin cậy của bài toán ước lượng là 89.69%

Ước lượng tỷ lệ của tổng thể

Gọi \(p\) là tỷ lệ (phần tử có tính chất A) của tổng thể.

  • Ước lượng 2 phía

\[\hat{p} - z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\le p\le \hat{p} + z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

  • Ước lượng tối đa

\[p\le\hat{p} + z_{\alpha}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

  • Ước lượng tối thiểu

\[p\ge\hat{p} - z_{\alpha}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

Ước lượng tỷ lệ của tổng thể (tt)

Ví dụ: Thu thập dữ liệu về trọng lượng của 36 sản sản phẩm chúng ta thu được bảng số liệu sau:

\[ \begin{array}{|c|c|c|c|c|c|} \hline \text{Trọng lượng(g)} & 165&170&180&190&195 \\ \hline \text{Số sản phẩm} & 3& 7& 16& 8& 2 \\ \hline \end{array} \] Những sản phẩm được gọi là đạt chất lượng nếu trọng lượng nằm trong khoảng từ 170g đến 190g. Với độ tin cậy 95%:

  1. Ước lượng tỷ lệ sản phẩm đạt chất lượng.
  2. Ước lượng tỷ lệ tối thiểu sản phẩm đạt chất lượng.

Ước lượng tỷ lệ của tổng thể (tt)

Giải:

Gọi \(p\) là tỷ lệ sản phẩm đạt chất lượng của loại sản phẩm này.

  1. Ta có \(\hat{p} = 31/36 = 0.86\), thế vào công thức:

\[0.86 - 1.96\sqrt{\frac{0.86(0.14)}{36}}\le p\le 0.86 + 1.96\sqrt{\frac{0.86(0.14)}{36}}\\ 0.7467\le p\le 0.9733\]

Vậy tỷ lệ sản phẩm đạt chất lượng của loại sản phẩm này nằm trong khoảng từ 74.67% đến 97.33% với độ tin cậy 95%.

  1. Với \(\gamma = 0.95 \to z_\alpha = 1.645\) và công thức ước lượng tối thiểu: \[p\ge\hat{p} - z_{\alpha}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\] nên \(p\ge 0.7649\).

Vậy tỷ lệ tối thiểu của sản phẩm đạt chất lượng là 76.49% với độ tin cậy là 95%.

Sai số của bài toán ước lượng tỷ lệ

\[\varepsilon=z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

được gọi là sai số của bài toán ước lượng (tỷ lệ), trong công thức này chúng ta cũng phải đánh đổi giữa sai số, độ tin cậy và cỡ mẫu. Với ví dụ trên:

  • \(\varepsilon = 0.1133\)

  • Nếu muốn sai số là 0.1 và độ tin cậy giữ nguyên thì cỡ mẫu sẽ là bao nhiêu? \[n=\left(\frac{z_{\alpha/2}}{\varepsilon} \right)^2\hat{p}(1-\hat{p}) = 46.25\]

  • Nếu muốn sai số là 0.1 và cỡ mẫu là \(n=30\) thì độ tin cậy là bao nhiêu?

\[z_{\alpha/2}=\varepsilon\sqrt{\frac{n}{\hat{p}(1-\hat{p})}}= 1.58\]

nên \(\gamma = 0.8859\), vậy với cỡ mẫu là 30 và sai số là 0.1 thì độ tin cậy của bài toán ước lượng là 88.59%.

Ước lượng phương sai của tổng thể

Gọi \(\sigma^2\) là phương sai của tổng thể \[\frac{(n-1)S^2}{\chi^2_{n-1,\alpha/2}}\le \sigma^2 \le\frac{(n-1)S^2}{\chi^2_{n-1,1-\alpha/2}}\]

Ví dụ: Thu thập dữ liệu về trọng lượng của 36 sản sản phẩm chúng ta thu được bảng số liệu sau: \[ \begin{array}{|c|c|c|c|c|c|} \hline \text{Trọng lượng(g)} & 165&170&180&190&195 \\ \hline \text{Số sản phẩm} & 3& 7& 16& 8& 2 \\ \hline \end{array} \] Hãy ước lượng phương sai về trọng lượng của loại sản phẩm này với độ tin cậy 95%.

Ước lượng chênh lệch trung bình 2 tổng thể

Ước lượng chênh lệch tỷ lệ 2 tổng thể

Kiểm định giả thuyết thống kê

  • Giả thuyết: Là một lời phát biểu/suy nghĩ chưa biết đúng sai! (chúng ta xem phát biểu/suy nghĩ của con người là giả thuyết).
  • Kiểm định: Kiểm tra một vấn đề xem vấn đề đó có đúng (với một tiêu chuẩn/quy định) không.
  • Sai lầm: Là tình huống có sự khác nhau giữa thực tế và lời kết luận.
  • Sai lầm loại 1: Bác bỏ giả thuyết trong khi giả thuyết đúng.
  • Sai lầm loại 2: Chấp nhận giả thuyết trong khi giả thuyết sai.

Kiểm định trung bình của tổng thể

Trường hợp cỡ mẫu lớn hơn hoặc bằng 30

Gọi \(\mu\) là trung bình của tổng thể.

  1. Kiểm định 2 phía \[\begin{cases}H_0: \mu = \mu_0\\ H_1 : \mu\ne \mu_0 \end{cases}\] \[Z = \frac{\bar{x}-\mu_0}{\sigma}\sqrt{n}\] Lưu ý: Nếu không có \(\sigma\) thì thay bởi \(s\).

Với \(\alpha\) cho trước tra bảng \(Z_{\alpha/2}\)

  • Nếu \(|Z| > Z_{\alpha/2}\): Bác bỏ \(H_0\)
  • Nếu \(|Z| < Z_{\alpha/2}\): Không đủ cơ sở để bác bỏ \(H_0\)
  1. Kiểm định bên trái

\[\begin{cases}H_0: \mu = \mu_0\\ H_1 : \mu < \mu_0 \end{cases}\] \[Z = \frac{\bar{x}-\mu_0}{\sigma}\sqrt{n}\]

Với \(\alpha\) cho trước tra bảng \(Z_{\alpha}\)

  • Nếu \(Z < -Z_{\alpha}\): Bác bỏ \(H_0\)
  • Nếu \(Z \ge -Z_{\alpha}\): Không đủ cơ sở để bác bỏ \(H_0\)
  1. Kiểm định bên phải

\[\begin{cases}H_0: \mu = \mu_0\\ H_1 : \mu > \mu_0 \end{cases}\] \[Z = \frac{\bar{x}-\mu_0}{\sigma}\sqrt{n}\]

Với \(\alpha\) cho trước tra bảng \(Z_{\alpha}\)

  • Nếu \(Z > Z_{\alpha}\): Bác bỏ \(H_0\)
  • Nếu \(Z \le Z_{\alpha}\): Không đủ cơ sở để bác bỏ \(H_0\)

Ví dụ

Kiểm tra chiều cao (cm) của một loại cây trồng sau 1 năm người ta thu được bảng số liệu sau:

\[ \begin{array}{|c|c|c|c|c|c|c|} \hline \text{Chiều cao(cm)} & 10 - 14&14 - 17&17 - 21&21 - 24&24 - 27&27 - 31 \\ \hline \text{Số cây} & 6& 12& 14& 19& 10&3 \\ \hline \end{array} \]

  1. Có thông tin cho rằng chiều cao trung bình của loại cây này khi được một năm tuổi là 20(cm), điều này đúng không với mức ý nghĩa 4%.
  2. Nếu cho rằng chiều cao trung bình của loại cây này khi được 1 năm tuổi không vượt quá 25(cm) có đúng không? Với mức ý nghĩa 4%.

Giải:

Gọi \(\mu\) là chiều cao trung bình của loại cây trồng này khi được 1 năm tuổi.

\[\begin{cases}H_0: \mu = 20(cm)\\ H_1 : \mu \ne 20(cm) \end{cases}\] Tính \(\bar{x} = 20,2109 ; s= 4,5468; \alpha = 4\% \to Z_{\alpha/2} = 2,055\) \[Z=\frac{\bar{x}-20}{s}\sqrt{64}= 0,37\] Do \(|Z| = 0,37 < Z_{\alpha/2} = 2,055\) nên không đủ cơ sở để bác bỏ \(H_0\), nghĩa là chiều cao trung bình của loại cây trồng này sau 1 năm là 20cm với mức ý nghĩa \(4\%\).

  1. Gọi \(\mu\) là chiều cao trung bình của loại cây trồng này khi được 1 năm tuổi.

\[\begin{cases}H_0: \mu = 60(cm)\\ H_1 : \mu < 60(cm) \end{cases}\]

Kiểm định trung bình của tổng thể (tt)

Trường hợp cỡ mẫu nhỏ hơn 30

Gọi \(\mu\) là trung bình của tổng thể.

  1. Kiểm định 2 phía \[\begin{cases}H_0: \mu = \mu_0\\ H_1 : \mu\ne \mu_0 \end{cases}\] \[T = \frac{\bar{x}-\mu_0}{S}\sqrt{n}\] Với \(\alpha\) cho trước tra bảng \(t_{n-1,\alpha/2}\)
  • Nếu \(|T| > t_{n-1,\alpha/2}\): Bác bỏ \(H_0\)
  • Nếu \(|T| < t_{n-1,\alpha/2}\): Không đủ cơ sở để bác bỏ \(H_0\)
  1. Kiểm định bên trái \[\begin{cases}H_0: \mu = \mu_0\\ H_1 : \mu < \mu_0 \end{cases}\] \[T = \frac{\bar{x}-\mu_0}{S}\sqrt{n}\]

Với \(\alpha\) cho trước tra bảng \(t_{n-1,\alpha}\)

  • Nếu \(T < -t_{n-1,\alpha}\): Bác bỏ \(H_0\)
  • Nếu \(T \ge -t_{n-1,\alpha}\): Không đủ cơ sở để bác bỏ \(H_0\)
  1. Kiểm định bên phải

\[\begin{cases}H_0: \mu = \mu_0\\ H_1 : \mu > \mu_0 \end{cases}\] \[T = \frac{\bar{x}-\mu_0}{S}\sqrt{n}\]

Với \(\alpha\) cho trước tra bảng \(t_{n-1,\alpha}\)

  • Nếu \(T > t_{n-1,\alpha}\): Bác bỏ \(H_0\)
  • Nếu \(T \le t_{n-1,\alpha}\): Không đủ cơ sở để bác bỏ \(H_0\)

Kiểm định tỷ lệ của tổng thể

  1. Kiểm định 2 phía \[\begin{cases}H_0: p = p_0\\H_1 : p\ne p_0\end{cases}\] \[Z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)}}\sqrt{n}\]

Với mức ý nghĩa \(\alpha\) tra bảng: \(Z_{\alpha/2}\)

  • Nếu \(|Z| > Z_{\alpha/2}\): Bác bỏ \(H_0\)
  • Nếu \(|Z| < Z_{\alpha/2}\): Không đủ cơ sở để bác bỏ \(H_0\)
  1. Kiểm định bên trái

\[\begin{cases}H_0: p = p_0\\H_1 : p< p_0\end{cases}\] \[Z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)}}\sqrt{n}\]

Với mức ý nghĩa \(\alpha\) tra bảng: \(Z_{\alpha}\)

  • Nếu \(Z < -Z_{\alpha}\): Bác bỏ \(H_0\)
  • Nếu \(Z \ge -Z_{\alpha}\): Không đủ cơ sở để bác bỏ \(H_0\)
  1. Kiểm định bên phải

\[\begin{cases}H_0: p = p_0\\H_1 : p> p_0\end{cases}\] \[Z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)}}\sqrt{n}\]

Với mức ý nghĩa \(\alpha\) tra bảng: \(Z_{\alpha}\)

  • Nếu \(Z > Z_{\alpha}\): Bác bỏ \(H_0\)
  • Nếu \(Z \le Z_{\alpha}\): Không đủ cơ sở để bác bỏ \(H_0\)

Kiểm định tỷ lệ của tổng thể (tt)

Ví dụ: Kiểm tra chiều cao (cm) của một loại cây trồng sau 1 năm người ta thu được bảng số liệu sau:

\[ \begin{array}{|c|c|c|c|c|c|c|} \hline \text{Chiều cao(cm)} & 10.8 - 14.2&14.2 - 17.6&17.6 - 21&21 - 24.3&24.3 - 27.7&27.7 - 31.1 \\ \hline \text{Số cây} & 6& 12& 14& 19& 10&3 \\ \hline \end{array} \] Những cây có chiều cao trên 24.3cm gọi là những cây phát triển tốt. Có người cho rằng tỷ lệ cây phát triển tốt là 20%, phát biểu này đúng không với mức ý nghĩa 3%.

Gọi \(p\) là tỷ lệ cây phát triển tốt.

\(\hat{p}=13/64 = 0.2031\)

\[\begin{cases}H_0: p=20\% \\H_1: p\ne 20\%\end{cases}\] \[Z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)}}\sqrt{n} = \]

Kiểm định phương sai

Gọi \(\sigma^2\) là phương sai của tổng thể. \[\begin{cases}H_0: \sigma^2 = \sigma_0^2\\H_1: \sigma^2 \ne \sigma_0^2\end{cases}\] \[\chi^2=\frac{(n-1)S^2}{\sigma_0^2}\] Với \(\alpha\) cho trước tra bảng được \(\chi^2_{n-1,\alpha/2}\)

Nếu \(\chi^2 >\chi^2_{n-1,\alpha/2}\): Bác bỏ \(H_0\).

vd

Ví dụ: Thu thập dữ liệu về trọng lượng của 36 sản sản phẩm chúng ta thu được bảng số liệu sau:

\[ \begin{array}{|c|c|c|c|c|c|} \hline \text{Trọng lượng(g)} & 165&170&180&190&195 \\ \hline \text{Số sản phẩm} & 3& 7& 16& 8& 2 \\ \hline \end{array} \] Những sản phẩm được gọi là đạt chất lượng nếu trọng lượng nằm trong khoảng từ 170g đến 190g.

  1. GĐ sản xuất báo cáo rằng trọng lượng trung bình của loại sản phẩm này là 185g, báo cáo này đúng không?
  2. GĐ sản xuất báo cáo rằng tỷ lệ sản phẩm đạt chất lượng là 85%, báo cáo này đúng không?

Kiểm định trung bình của 2 tổng thể

Kiểm định sự bằng nhau về trung bình của 2 tổng thể

\[\begin{cases}H_0: \mu_1 = \mu_2 \\H_1 : \mu_1 \ne \mu_2\end{cases}\] \[z = \frac{\bar{x}_1-\bar{x}_2}{\sqrt{\frac{S^2_1}{n_1}-\frac{S^2_2}{n_2}}}\] với độ tin cậy \(\gamma\) cho trước trang bảng được \(z_{\alpha/2}\)

Nếu \(|z|> z_{\alpha/2}\) bác bỏ \(H_0\).

Kiểm định trung bình của 2 tổng thể (tt)

Kiểm định bên trái

\[\begin{cases}H_0: \mu_1 = \mu_2 \\H_1 : \mu_1 < \mu_2\end{cases}\] \[z = \frac{\bar{x}_1-\bar{x}_2}{\sqrt{\frac{S^2_1}{n_1}-\frac{S^2_2}{n_2}}}\] với độ tin cậy \(\gamma\) cho trước trang bảng được \(z_{\alpha/2}\)

Nếu \(|z|> z_{\alpha/2}\) bác bỏ \(H_0\).

Dãy số thời gian (Time series)

Định nghĩa: Là dãy số liệu mà thứ tự của nó được xắp xếp theo thứ tự thời gian.

Một cách tổng quát dãy số theo thời gian được tổ chức thành 1 bảng gồm 2 hàng như sau:

\[\begin{array}{|c|c|c|c|c|} \hline \text{T} & t_1&t_2&\dots&t_n \\ \hline Y_t & y_1& y_2& \dots& y_n \\ \hline \end{array}\]

Phân loại:

  • Dãy số thời kỳ.
  • Dãy số thời điểm.

Ví dụ 1: FDI (đơn vị tính: Tỷ USD) của Việt Nam được ghi nhận như sau:

\[\begin{array}{|c|c|c|c|c|c|c|c|} \hline \text{Năm} & 2017 & 2018 & 2019 & 2020 & 2021 & 2022 & 2023 \\ \hline \text{FDI} & 17.50 & 19.10 & 20.38 & 19.98 & 19.74 & 22.40 & 23.18 \\ \hline \end{array}\]

Ví dụ 2: Tốc độ gió tại sân bay

Các thành phần của dãy số thời gian

Thông thường một dãy số thời gian được hình thành từ 4 yếu tố:

  • Yếu tố xu hướng (Trend).
  • Yếu tố mùa vụ (Season).
  • Yếu tố chu kỳ (Circling).
  • Yếu tố ngẫu nhiên (Illegal).

Một dãy số theo thời gian có thể được mô hình hóa bởi:

\[Y_t = T.S.C.I\] hoặc \[Y_t = T+S+C+I\]