1 Các khái niệm

1.1 Giả thuyết thống kê

Xét biến ngẫu nhiên có hàm phân phối \(F(x, \theta)\) trong đó \(\theta\) là tham số chưa biết. Ta có thể phát biểu nhiều giả thuyết cho \(\theta\), các giả thuyết này gọi là giả thuyết thống kê.

Trong quá trình nghiên cứu vấn đề của tổng thể qua 1 dấu hiệu X, để kiểm tra xem X có hay không. Do không có thông tin đầy đủ trên tổng thể nên không thể đánh giá chính xác vấn đề đó được. Thông tin trên mẫu sẽ được sử dụng để kiểm tra, đánh giá tính chất đó theo 1 phương pháp toán học. Bài toán đó gọi là kiểm định giả thuyết thống kê. Bao gồm ba loại:

  • Kiểm định về dạng phân phối
  • Kiểm định về tham số đặc trưng
  • Kiểm định về tính độc lập của các biến ngẫu nhiên

Các mệnh đề cần kiểm định sẽ được đặt dưới dạng cặp giả thuyết:

  • Giả thuyết của tham số đưa ra kiểm định gọi là giả thuyết gốc, kí hiệu \(H_0\).
  • Giả thuyết khác với giả thuyết gốc gọi là đối thuyết, kí hiệu \(H_1\).

2 Quy tắc kiểm định

2.1 Nguyên lý xác suất

Nhắc lại về nguyên lý xác suất

a. Nguyên lý xác suất nhỏ

  • “Một biến cố có xác suất xuất hiện khá nhỏ thì có thể xem như biến cố đó không xảy ra khi thực hiện một phép thử có liên quan đến biến cố đó.”
  • Mức xác suất được coi là nhỏ tùy thuộc vào từng bài toán và gọi là mức ý nghĩa.
  • Nguyên lí xác suất nhỏ là cơ sở của phương pháp kiểm định.

b. Nguyên lý xác suất lớn

  • “Nếu một biến cố có xác suất rất lớn thực tế có thể chorằng trong một phép thử biến cố đó sẽ xảy ra.”
  • Mức xác suất đủ lớn gọi là độ tin cậy.
  • Nguyên lý xác suất lớn là cơ sở của phương pháp ước lượng bằng khoảng tin cậy.

2.2 Tiêu chuẩn kiểm định

Tiêu chuẩn kiểm định là một thống kê G với mẫu ngẫu nhiên \(W = f(X_1, X_2, X_3, …,X_n)\).

Tiêu chuẩn kiểm định:

a. Một mẫu

  1. Trung bình tổng thể đã biết phương sai theo phân phối chuẩn T(µ, \(σ^2\)): \[Z = \frac{(x ̅-μ_0 )\sqrt{n}}{σ}\]

  2. Trung bình tổng thể chưa biết phương sai tổng thể theo luật Student T(n–1): \[t=\frac{(x ̅-μ_0 )\sqrt{n}}{s}\]

  3. Phương sai tổng thể phân phối chuẩn \(χ^2 (n – 1)\): \[χ^2=\frac{(n-1) s^2}{σ^2}\]

  4. Tần suất tổng thể theo phân phối Không – Một N(0; 1): \[Z = \frac{(f-p_0 )\sqrt{n}}{\sqrt{p_0 (1- p_0 )}}\] b. Hai mẫu

  5. Hiệu hai trung bình của hai tổng thể theo phân phối chuẩn đã biết phương sai hai tổng thể ~ N(0; 1): \[Z = \frac{(x̅_ 1 - x̅_2)-(µ_1-µ_2)}{\sqrt{\frac{σ_1^2}{n_1} + \frac{σ_2^2}{n_2}}}\]

  6. Hiệu hai trung bình của hai tổng thể với mẫu lớn chưa biết phương sai tổng thể thì phân phối Student xấp xỉ quy luật Chuẩn hóa N(0; 1): \[Z = \frac{x̅_ 1 - x̅_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}\]

  7. Hiệu hai trung bình của hai tổng thể với mẫu nhỏ chưa biết phương sai tổng thể phân phối theo quy luật Student T(k): \[t = \frac{x̅_ 1 - x̅_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}\] Trong đó:

(*) \(k = n_1 + n_2 - 2\) nếu biết phương sai hai tổng thể bằng nhau.

(**) \(k = \frac{(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2})^2}{\frac{(\frac{s_1^2}{n_1})^2}{n_1-1} + {\frac{(\frac{s_2^2}{n_2})^2}{n_2-1}}}\) nếu biết phương sai hai tổng thể không bằng nhau.

  1. Hiệu hai trung bình cho hai mẫu phối hợp từng cặp (1 dấu hiệu ở hai thời kì khác nhau) theo phân phối chuẩn: \[T = \frac{(a̅-µ)\sqrt{n}}{s_d}\] Trong đó:

(*) \(a̅ =\frac{1}{n}\sum_{i=1}^{n}(x_{1i}- x_{2i})\) là chênh lệch trung bình của hai mẫu.

(**) \(S_d = \frac{1}{n-1} \sum_{i=1}^{n}(a_i - a̅)^2\) là độ chênh lệch phương sai hai mẫu.

  1. Phương sai hai thể phân phối chuẩn thì tiêu chuẩn kiểm định \(F = \frac{s_1^2}{s_2^2}\) ~ \(F(n_1 – 1, n_2 - 1)\) sẽ phân phối theo quy luật Fisher – Snedecor với hai bậc tự do \(n_1 -1\)\(n_2 – 1\).

  2. Tần suất hai tổng thể \[ Z = \frac{f_1- f_2}{\sqrt{f̅(1 - f̅)(\frac{1}{n_1} +\frac{1}{n_2})}}\] Với \(f̅ =\frac{n_1 f_1- n_2 f_2}{n_1 + n_2}\) là tần suất kết hợp hai mẫu

2.3 Quy tắc kiểm định

Xác định miền giá trị \(W_α\) - là miền bác bỏ \(H_0\) với mức ý nghĩa α đủ nhỏ (thường lấy giá trị α ≤ 0.05).

  • Nếu giá trị của \(G ∈ W_α\) thì bác bỏ \(H_0\).
  • Nếu giá trị của \(G ∉ W_α\) thì chấp nhận \(H_0\).

a. Các loại sai lầm

  • Sai lầm loại 1: bác bỏ một điều đúng - bác bỏ \(H_0\) khi \(H_0\) đúng. Xác suất mắc sai lầm loại 1 bằng mức ý nghĩa là α.
  • Sai lầm loại 2: thừa nhận một điều sai - chấp nhận \(H_0\) khi \(H_0\) sai. Xác suất mắc sai lầm loại 2 bằng ß, 1 – ß gọi là lực kiểm định.

b. Các dạng miền tới hạn

Người ta chọn miền tới hạn \(W_α\) của tiêu chuẩn G phụ thuộc vào giả thuyết \(H_0\), \(H_1\) và α như sau:

  • Nếu \(H_0\): \(\theta = \theta_0\) , \(H_1\): \(\theta ≠ \theta_0\) thì ta thực hiện kiểm định hai phía với: \[P(G < G1|H_0) = P(G > G2|H_0) = \frac{α}{2}\]

  • Nếu \(H_0\): \(\theta = \theta_0\) , \(H_1\): \(\theta < \theta_0\) (đối thuyết lệch trái) thì ta chọn \(G_1\) thỏa: \[P(G < G_1|H0) = α\]

  • Nếu \(H_0\): \(\theta = \theta_0\) , \(H_1\): \(\theta > \theta_0\) (đối thuyết lệch phải) thì ta chọn \(G_2\) thỏa: \[P(G > G_1|H_0) = α\]

3 Bài toán kiểm định

  • \(B_1\). Xây dựng giả thuyết \(H_0\) và \(H_1\).
  • \(B_2\). Xác định tiêu chuẩn kiểm định G.
  • \(B_3\). Tìm miền tới hạn .
  • \(B_4\). Xây dựng quy tắc kiểm định.
  • \(B_5\). Đưa ra kết luận.

4 Quy luật phân phối thông dụng trong thống kê

  • Quy luật phân phối chuẩn
  • Quy luật phân phối Student hay phân phối t của William S. Gosset
  • Quy luật phân phối Chi - bình phương của Karl Pearson
  • Quy luật phân phối Fisher – Snedecor