(Bài này hoàn toàn tham khảo nghiên cứu chọn mẫu của giáo sư Nguyễn Văn TUấn là thạc sỹ về ngành thống kê và nghiên cứu viên chính Y khoa ở Úc) Chọn mẫu là một phần rất quan trọng của thống kê chọn mẫu đúng là cơ sở cho nghiên cứu thành công và với chi phí tốt nhất nó cũng nằm ngay trong bước đầu tiên của xử lý nhưng đáng ngại nhất là có rất nhiều dị bản về phương pháp trọn mẫu trong thống kê . Đầu tiên nói đến nguyên tắc chọn mẫu lớn hơn 1/20 của tổng thể nó ngược lại với nguyên tắc 95% của khoảng tin cậy C và P-value kiểm định nhỏ hơn 0.05 để bác bỏ giả thiết H0 hay tương ứng với Lực kiểm định 80%, hoặc thang đo likehook 5 bậc,… là những chuẩn mực giá trị hằng số trong thống kê. Tuy nhiên trong nhiều trường hợp người ta không biết được tổng thể nên cần sử dụng các phương pháp khác và cần xây dựng phương pháp luận khoa học chung. Trong nhiều trường hợp chọn mẫu người ta biết trung bình mẫu và ước lượng Trung bình tổng thể theo mẫu cần xác định mẫu tiếp theo từ trung bình tổng thể này, ngược lại chưa biết trung bình tổng thể nhưng người ta biết phương sai vì phương sai dễ lưu giữ và dễ kiểm tra. Chọn mẫu cũng có thể bắt đầu từ biết một tham số là một tỷ lệ thống kê
Ngoài ra còn có phương pháp điều tra thử trong trường hợp một nghiên cứu hoàn toàn mới, tức chưa ai từng làm trước đó,có thể các thông số về độ ảnh hưởng và độ dao động đo lường sẽ không có, và nhà nghiên cứu cần phải tiến hành một số mô phỏng (simulation) hay một nghiên cứu sơ khởi để có những thông số cần thiết.
Điều tra chọn mẫu cần ước tính được cỡ mẫu, dựa trên các tham số sau - Tham số C Xác suất sai sót: Chấp nhận sai sót loại I từ 1%-5% hay α = (0.01-0.05) xác suất sai sót loại II β = (0.1,0.2) tức power(0.8-0.9) - Độ dao động, độ lệch chuẩn - Độ ảnh hưởng (Δ): Nếu là công trình nghiên cứu so sánh hai nhóm, là độ khác biệt trung bình giữa hai nhóm mà nhà nghiên cứu muốn phát hiện.
Cỡ mẫu cần thiết n = C/ (Δ/σ)^2 (công thức 1) Trong trường hợp 2 nhóm đối tượng n= 2* C/ (Δ/σ)^2 (Công thức 2)
Bảng tham số tính C sai sót loại I (α) , sai sót loại II (β) α = (0.10, 0.05,0.01); β = 0.20 (Power = 0.80) -> C = (6.15,7.85,13.33) α = (0.10, 0.05,0.01); β = 0.10 (Power = 0.90) -> C = (8.53,10.51,16.74) α = (0.10, 0.05,0.01); β = 0.05 (Power = 0.95) -> C = (10.79,13.00,19.84)
Ví dụ 1: Chúng ta muốn ước tính chiều cao ở đàn ông người Việt, và chấp nhận sai số trong vòng 1 cm (d = 1) với khoảng tin cậy 0.95 (tức α=0.05) và power = 0.8 (hay β = 0.2). Các nghiên cứu trước cho biết độ lệch chuẩn chiều cao ở người Việt khoảng 4.6cm.
# n= 7.85/(1/4.6)^2 = 166 (Công thức 1)
power.t.test(delta=1, sd=4.6, sig.level=.05, power=.80,
type='one.sample') # Hàm power của R tính toán chính xác hơn thủ công bằng tay
##
## One-sample t test power calculation
##
## n = 168.0131
## delta = 1
## sd = 4.6
## sig.level = 0.05
## power = 0.8
## alternative = two.sided
Ví dụ 2: Một nghiên cứu mẫu về tác động của một Clip quảng cáo đến người xem , thiết kế 2 nhóm NHóm 1 có xem quảng cáo và nhóm hai không xem quảng cáo. Tiêu chí để đánh giá hiệu quả của quảng cáo là nhóm 1 phải tăng lên 5% nhận biết sản phẩm so với nhóm 2, nghiên cứu trước giá trị trung bình của người xem cảm nhận sản phẩm là 0.8 người/1 phut xem của; độ lệch chuẩn là 0.12 người/1 phut xem của 1000
trung bình 1 μ1 = 801.05 = 840 (tức tăng 5% so với nhóm 1) Δ = 840 - 800 = 40 Áp dụng công thức 2 n = 2 C/ (Δ/σ)^2 = 189
power.t.test(delta=0.04, sd=0.12, sig.level=0.05, power=0.90,
type="two.sample")
##
## Two-sample t test power calculation
##
## n = 190.0991
## delta = 0.04
## sd = 0.12
## sig.level = 0.05
## power = 0.9
## alternative = two.sided
##
## NOTE: n is number in *each* group
Ví dụ 3: Một thử nghiệm lâm sàng đối chứng ngẫu nhiên được thiết kế để đánh giá hiệu quả của một loại thuốc chống gãy xương sống. Hai nhóm bệnh nhân sẽ được tuyển. Nhóm 1 được điều trị bằng thuốc, và nhóm 2 là nhóm đối chứng (không được điều trị). Các nhà nghiên cứu giả thiết rằng tỉ lệ gãy xương trong nhóm 2 là khoảng 10%, và thuốc có thể làm giảm tỉ lệ này xuống khoảng 6%. Nếu các nhà nghiên cứu muốn thử nghiệm giả thiết này với sai sót I là α = 0.01 và power = 0.90, bao nhiêu bệnh nhân cần phải được tuyển mộ cho nghiên cứu?
# Sử dụng Hàm power.prop.test cần 1366 đối tượng cho mẫu
power.prop.test(p1=0.10, p2=0.06, power=0.90, sig.level=0.01)
(Trường hợp có nhiều nhóm)
Ví dụ 4: Để so sánh độ ngọt của một loại nước uống giữa 4 nhóm đối tượng khác nhau về giới tính và độ tuổi (tạm gọi 4 nhóm là A, B, C và D), các nhà nghiên cứu giả thiết rằng độ ngọt trong nhóm A, B. C và D lần lược là 4.5, 3.0, 5.6, và 1.3. Qua xem xét nhiều nghiên cứu trước, các nhà nghiên cứu còn biết rằng cảm nhận về độ ngọt chung các nhóm là khoảng 8.7. Vấn đề đặt ra là bao nhiêu đối tượng cần nghiên cứu để phát hiện sự khác biệt có ý nghĩa thống kê ở mức độ α = 0.05 và power = 0.9.
sử dụng hàm power.anova.test
groupmeans <- c(4.5, 3.0, 5.6, 1.3)
power.anova.test(groups = length(groupmeans),
between.var=var(groupmeans),
within.var=8.7, power=0.90, sig.level=0.05)
##
## Balanced one-way analysis of variance power calculation
##
## groups = 4
## n = 12.81152
## between.var = 3.486667
## within.var = 8.7
## sig.level = 0.05
## power = 0.9
##
## NOTE: n is number in each group
Kết quả cho thấy các nhà nghiên cứu cần khoảng 13 đối tượng cho mỗi nhóm (tức 52 đối tượng cho toàn bộ nghiên cứu)