Khoảng tin cậy (Confidence Interval - CI)
Khái niệm CI:
Khoảng tin cậy là khái niệm trong thống kê biểu diễn xác suất tham số tổng thể sẽ nằm giữa hai giá trị được đặt trong một tỉ lệ thời gian nhất định. Trong thống kê, khoảng tin cậy là một loại ước lượng khoảng, được tính từ số liệu thống kê của dữ liệu quan sát được, có thể bao hàm giá trị thực của tham số quần thể chưa biết. Khoảng có một độ tin cậy tương ứng, nói một cách chung chung, ước lượng độ tin cậy mà tham số nằm trong khoảng.
Khoảng tin cậy đo lường mức độ không chắc chắn hoặc chắc chắn trong phương pháp lấy mẫu. Khoảng tin cậy có thể có bất kì con số xác suất nào, trong đó phổ biến nhất là độ tin cậy 95% hoặc 99%.
Khoảng tin cậy và độ tin cậy có liên quan đến nhau nhưng không hoàn toàn giống nhau.
Hiểu về khoảng tin cậy
Các nhà thống kê sử dụng khoảng tin cậy để đo lường sự không chắc chắn. Ví dụ, một nhà nghiên cứu chọn ngẫu nhiên các mẫu khác nhau từ cùng một tổng thể và tính khoảng tin cậy cho mỗi mẫu. Các bộ dữ liệu kết quả cho ra là khác nhau, một số khoảng bao gồm tham số tổng thể thực tế và một số khác thì không.
Khoảng tin cậy là một phạm vi các giá trị có khả năng chứa một tham số tổng thể không xác định. Mức độ tin cậy đề cập đến tỉ lệ phần trăm của xác suất hay độ chắc chắn khoảng tin cậy sẽ chứa tham số tổng thể thực tế khi lấy ra một mẫu ngẫu nhiên nhiều lần. Hoặc, theo qui chuẩn chung, “Chúng ta chắc chắn 99% (độ tin cậy) rằng hầu hết các bộ dữ liệu này (các khoảng tin cậy) có chứa tham số tổng thực tế.”
Ví dụ về khoảng tin cậy
Giả sử một nhóm các nhà nghiên cứu đang nghiên cứu về chiều cao của các cầu thủ bóng rổ ở trường trung học. Các nhà nghiên cứu lấy một mẫu ngẫu nhiên từ tổng thể và thiết lập chiều cao trung bình là 188cm. Giá trị trung bình 188cm là giá trị được ước tính từ trung bình dân số.
Giá trị ước tính có hạn chế là nó không cho biết sự không chắc chắn của việc ước tính, hay nhóm nhà nghiên cứu không ý thức rõ về mẫu cho giá trị trung bình 188cm này có thể cách xa giá trị trung bình của tổng thể như thế nào. Giá trị ước tính có hạn chế là nó không cho biết sự không chắc chắn của việc ước tính, hay nhóm nhà nghiên cứu không ý thức rõ về mẫu cho giá trị trung bình 188cm này có thể cách xa giá trị trung bình của tổng thể như thế nào.
Nếu các nhà nghiên cứu muốn độ tin cậy cao hơn nữa, họ có thể mở rộng khoảng tin cậy lên 99%. Làm như vậy sẽ luôn tạo ra một khoảng tin cậy lớn hơn, vì nó bao hàm số mẫu lớn hơn. Nếu họ thiết lập khoảng tin cậy 99% là từ 178cm đến 198cm, họ có thể mong đợi 99 trong số 100 mẫu được xem xét có chứa giá trị trung bình giữa các con số này. Độ tin cậy 90% có nghĩa là chúng ta mong đợi 90% các khoảng ước tính có bao hàm tham số tổng thể. Tương tự, độ tin cậy 99% có nghĩa là 95% các khoảng sẽ bao gồm tham số.
Những quan niệm sai lầm về Khoảng tin cậy
Quan niệm sai lầm lớn nhất về khoảng tin cậy là chúng đại diện cho tỉ lệ phần trăm số liệu từ một mẫu nhất định nằm giữa giới hạn trên và dưới. Ví dụ, người ta có thể hiểu sai khoảng tin cậy 99% đã nói ở trên từ 178cm đến188cm cho biết 99% dữ liệu trong một mẫu ngẫu nhiên nằm giữa các con số này. Điều này là không chính xác và có một phương pháp phân tích thống kê riêng biệt tồn tại để xác định điều này.
Cách để tính khoảng tin cậy
Theo dõi các bước sau để tính được khoảng tin cậy:
Bước 1:Ghi lại hiện tượng bạn muốn kiểm tra. Giả dụ bạn muốn kiểm tra tình huống sau : Cân nặng trung bình của sinh viên nam ở trường ABC là 81 kg (tương đương 180 lbs). Bạn cần kiểm tra xem dự đoán của bạn về cân nặng của sinh viên nam trong trường ABC có chính xác trong khoảng tin cậy cho trước hay không.
Bước 1
Chọn một mẫu từ tổng thể cho sẵn. Đây là bước bạn sẽ thực hiện để thu thập số liệu nhằm kiểm tra giả thiết bạn đã đặt ra. Ví dụ bạn đã chọn ngẫu nhiên 1000 sinh viên nam.
Bước 2
Tính giá trị trung bình và độ lệch chuẩn của mẫu. Chọn một giá trị thống kê của mẫu (ví dụ như giá trị trung bình, độ lệch chuẩn của mẫu) mà bạn muốn sử dụng để ước lượng tham số của tổng thể bạn đã chọn. Một tham số của tổng thể là một giá trị biểu thị một đặc tính nhất định của tổng thể đó. Để tính giá trị trung bình và độ lệch chuẩn của mẫu, ta làm như sau:
- Ta tính giá trị trung bình bằng cách lấy tổng cân nặng của 1000 sinh viên nam đã chọn và chia tổng thu được cho 1000, tức là số lượng sinh viên. Giá trị cân nặng trung bình thu được sẽ là 81 kg (180 lbs).
- Để tính độ lệch chuẩn, bạn cần xác định được giá trị trung bình của bộ số liệu. Sau đó, bạn cần tính được độ biến thiên của số liệu, hay nói cách khác là tìm giá trị trung bình của bình phương sai lệch so với giá trị trung bình. Tiếp theo, ta sẽ lấy căn bậc hai của giá trị thu được. Giả dụ độ lệch chuẩn tính được là 14 kg (tương đương 30 lbs). (Chú ý: đôi khi giá trị độ lệch chuẩn sẽ được cho trước trong các bài toán thống kê).
Bước 3
Chọn khoảng tin cậy mà bạn mong muốn. Các khoảng tin cậy thường được dùng là 90%, 95% và 99%. Giá trị này cũng thường được cho trước. Ví dụ xét khoảng tin cậy 95%.
Bước 4
Tính phạm vi sai số hay giới hạn sai số. Giới hạn sai số có thể tính theo công thức: Za/2 * σ/√(n). Trong đó, Za/2 là hệ số tin cậy, với a là khoảng tin cậy, σ là độ lệch chuẩn và n là kích thước mẫu. Hay nói cách khác, bạn cần nhân giá trị giới hạn với sai số chuẩn. Để giải được công thức này, ta chia công thức thành các phần nhỏ như sau: - Để tính trị số giới hạn Za/2: Khoảng tin cậy đang xét là 95%. Chuyển từ giá trị phần trăm sang giá trị thập phân ta được: 0,95; lấy giá trị này chia cho 2 ta được 0,475. Tiếp đó, so sánh với bảng z table để tìm được giá trị tương ứng với 0,475. Ta thấy rằng giá trị gần nhất là 1,96 nằm ở giao điểm của hàng 1,9 và cột 0,06. - Để tính sai số chuẩn, lấy độ lệch chuẩn là 30 (theo lbs, và 14 theo kg), chia giá trị này cho căn bậc hai của kích cỡ mẫu là 1000. Ta được 30/31,6 = 0,95 lbs, hoặc (14/31,6 = 0,44 kg). - Nhân trị số tới hạn với sai số chuẩn, tức là lấy 1,96 x 0,95 = 1,86 (theo lbs) hoặc 1,96 x 0,44 =0,86 (theo kg). Tích số này chính là giới hạn sai số hay phạm vi sai số.
Bước 5
Ghi khoảng tin cậy. Để ghi khoảng tin cậy, ta lấy giá trị trung bình (180 lbs, hoặc 81 kg) và ghi giá trị này bên trái dấu ± sau đó đến giới hạn sai số. Vậy, kết quả thu được là: 180 ± 1.86 lbs hoặc 81 ± 0,44 kg. Ta có thể xác định được cận trên và cận dưới của khoảng tin cậy bằng cách cộng thêm hoặc trừ đi giá trị trung bình một lượng bằng phạm vi sai số. Tức là, nếu tính theo lbs, cận dưới là 180 – 1,86 = 178,16 và cận trên là 180 + 1,86 = 181,86.
Ta cũng có thể sử dụng công thức này để xác định khoảng tin cậy: x̅ ± Za/2 * σ/√(n). Trong đó x̅ là giá trị trung bình.Bước 6