Xét biến ngẫu nhiên có hàm phân phối \(F(x, \theta)\) trong đó \(\theta\) là tham số chưa biết. Ta có thể phát biểu nhiều giả thuyết cho \(\theta\), các giả thuyết này gọi là giả thuyết thống kê.
Trong quá trình nghiên cứu vấn đề của tổng thể qua 1 dấu hiệu X, để kiểm tra xem X có hay không. Do không có thông tin đầy đủ trên tổng thể nên không thể đánh giá chính xác vấn đề đó được. Thông tin trên mẫu sẽ được sử dụng để kiểm tra, đánh giá tính chất đó theo 1 phương pháp toán học. Bài toán đó gọi là kiểm định giả thuyết thống kê. Bao gồm ba loại:
Các mệnh đề cần kiểm định sẽ được đặt dưới dạng cặp giả thuyết:
Nhắc lại về nguyên lý xác suất
a. Nguyên lý xác suất nhỏ
b. Nguyên lý xác suất lớn
Tiêu chuẩn kiểm định là một thống kê G với mẫu ngẫu nhiên \(W = f(X_1, X_2, X_3, …,X_n)\).
Tiêu chuẩn kiểm định:
a. Một mẫu
Trung bình tổng thể đã biết phương sai theo phân phối chuẩn T(µ, \(σ^2\)): \[Z = \frac{(x ̅-μ_0 )\sqrt{n}}{σ}\]
Trung bình tổng thể chưa biết phương sai tổng thể theo luật Student T(n–1): \[t=\frac{(x ̅-μ_0 )\sqrt{n}}{s}\]
Phương sai tổng thể phân phối chuẩn \(χ^2 (n – 1)\): \[χ^2=\frac{(n-1) s^2}{σ^2}\]
Tần suất tổng thể theo phân phối Không – Một N(0; 1): \[Z = \frac{(f-p_0 )\sqrt{n}}{\sqrt{p_0 (1- p_0 )}}\] b. Hai mẫu
Hiệu hai trung bình của hai tổng thể theo phân phối chuẩn đã biết phương sai hai tổng thể ~ N(0; 1): \[Z = \frac{(x̅_ 1 - x̅_2)-(µ_1-µ_2)}{\sqrt{\frac{σ_1^2}{n_1} + \frac{σ_2^2}{n_2}}}\]
Hiệu hai trung bình của hai tổng thể với mẫu lớn chưa biết phương sai tổng thể thì phân phối Student xấp xỉ quy luật Chuẩn hóa N(0; 1): \[Z = \frac{x̅_ 1 - x̅_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}\]
Hiệu hai trung bình của hai tổng thể với mẫu nhỏ chưa biết phương sai tổng thể phân phối theo quy luật Student T(k): \[t = \frac{x̅_ 1 - x̅_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}\] Trong đó:
(*) \(k = n_1 + n_2 - 2\) nếu biết phương sai hai tổng thể bằng nhau.
(**) \(k = \frac{(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2})^2}{\frac{(\frac{s_1^2}{n_1})^2}{n_1-1} + {\frac{(\frac{s_2^2}{n_2})^2}{n_2-1}}}\) nếu biết phương sai hai tổng thể không bằng nhau.
(*) \(a̅ =\frac{1}{n}\sum_{i=1}^{n}(x_{1i}- x_{2i})\) là chênh lệch trung bình của hai mẫu.
(**) \(S_d = \frac{1}{n-1} \sum_{i=1}^{n}(a_i - a̅)^2\) là độ chênh lệch phương sai hai mẫu.
Phương sai hai thể phân phối chuẩn thì tiêu chuẩn kiểm định \(F = \frac{s_1^2}{s_2^2}\) ~ \(F(n_1 – 1, n_2 - 1)\) sẽ phân phối theo quy luật Fisher – Snedecor với hai bậc tự do \(n_1 -1\) và \(n_2 – 1\).
Tần suất hai tổng thể \[ Z = \frac{f_1- f_2}{\sqrt{f̅(1 - f̅)(\frac{1}{n_1} +\frac{1}{n_2})}}\] Với \(f̅ =\frac{n_1 f_1- n_2 f_2}{n_1 + n_2}\) là tần suất kết hợp hai mẫu
Xác định miền giá trị \(W_α\) - là miền bác bỏ \(H_0\) với mức ý nghĩa α đủ nhỏ (thường lấy giá trị α ≤ 0.05).
a. Các loại sai lầm
b. Các dạng miền tới hạn
Người ta chọn miền tới hạn \(W_α\) của tiêu chuẩn G phụ thuộc vào giả thuyết \(H_0\), \(H_1\) và α như sau:
Nếu \(H_0\): \(\theta = \theta_0\) , \(H_1\): \(\theta ≠ \theta_0\) thì ta thực hiện kiểm định hai phía với: \[P(G < G1|H_0) = P(G > G2|H_0) = \frac{α}{2}\]
Nếu \(H_0\): \(\theta = \theta_0\) , \(H_1\): \(\theta < \theta_0\) (đối thuyết lệch trái) thì ta chọn \(G_1\) thỏa: \[P(G < G_1|H0) = α\]
Nếu \(H_0\): \(\theta = \theta_0\) , \(H_1\): \(\theta > \theta_0\) (đối thuyết lệch phải) thì ta chọn \(G_2\) thỏa: \[P(G > G_1|H_0) = α\]