Giới thiệu kiểm định t-test

Lịch sử của t-test

Năm 1908: William Gosset giới thiệu công trình về phân phối t và ứng dụng của phép thử t. Sự xuất hiện đầu tiên của phép thử t trong tâm lý học và những lĩnh vực liên quan đã xảy ra trước thập niên 30 của thế kỷ.

William Sealy Gosset (13 tháng 6 năm 1876 - 16 tháng 10 năm 1937) là một nhà thống kê, nhà hóa học và nhà sản xuất bia người Anh, từng là Trưởng nhà sản xuất bia của công ty bia Guinness, ông cũng là nhà tiên phong của thống kê hiện đại. Ông đã đi tiên phong trong việc thiết kế và phân tích thử nghiệm mẫu nhỏ với cách tiếp cận kinh tế đối với logic của sự không chắc chắn. Gosset xuất bản dưới bút danh Sinh viên và phát triển nổi tiếng nhất là phân phối t của Sinh viên, ông có thể coi là cha đẻ của kiểm định t-test với kiểm định các mẫu nhỏ. Vì thời còn là sinh viên, khi công bố các kết quả phân tích mẫu trong nhà máy bia nên ông lấy bút danh khi gửi báo là “sinh viên”, nên đôi khi kiểm định t-test còn gọi là kiểm định Student t-test.

Fig 1: Một cốc bia đen Guinness

Gosset đã xuất bản hầu hết trong số 21 bài báo học thuật của mình, bao gồm lĩnh vực về Lỗi có thể xảy ra của một giá trị trung bình, trên tạp chí Biometrika của Pearson dưới bút danh Student. Tuy nhiên, không phải Pearson mà chính là Ronald A. Fisher đánh giá cao tầm quan trọng của công trình mẫu nhỏ của Gosset. Fisher viết cho Gosset vào năm 1912 giải thích rằng phân phối z của Student nên được chia cho bậc tự do chứ không phải tổng kích thước mẫu. Từ năm 1912 đến năm 1934, Gosset và Fisher đã trao đổi hơn 150 bức thư. Vào năm 1924, Gosset đã viết trong một bức thư cho Fisher, “Tôi gửi cho bạn một bản sao của Bảng Học sinh vì bạn là người duy nhất có thể sử dụng chúng!” - nguyên văn như sau :“I am sending you a copy of Student’s Tables as you are the only man that’s ever likely to use them!”. Fisher tin rằng Gosset đã tạo ra một “cuộc cách mạng hợp lý”. Trong một số đặc biệt của Metron vào năm 1925, Student đã xuất bản các bảng đã được sửa chữa, bây giờ được gọi là Student’s t

Fig 2: William Gosset

Tìm hiểu kiểm định t-test

Nếu bạn hiểu được cách phương pháp t-test hoạt động, bạn có thể hiểu ở một mức độ sâu hơn về dữ liệu của bạn dựa trên kết quả mà phương pháp t-test mang lại. Và bạn cũng hiểu sâu hơn tại sao kết quả nghiên cứu của bạn đạt được (hoặc không đạt được) “ý nghĩa thống kê” (statistical significant).

Phương pháp t-test được dùng một cách phổ biến để xác định xem liệu giá trị trung bình của một quần thể (the mean of a population) có khác biệt với một giá trị nào đó (gọi là giá trị trung bình giả thuyết – a hypothesized mean) hoặc với giá trị trung bình của một quần thể khác.

Ví dụ, phương pháp 1-sample t-test (hay phương pháp kiểm định t cho một mẫu) được dùng để kiểm định xem liệu thời gian chờ trung bình của các bệnh nhân trong một phòng khám y khoa có lâu hơn so với thời gian mong muốn là 15 phút hay không, dựa trên dữ liệu từ một nhóm ngẫu nhiên các bệnh nhân.

Để xác định xem liệu sự khác biệt (giữa thời gian chờ thực tế và thời gian mong muốn) có ý nghĩa thống kê hay không, phương pháp t-test sẽ tính toán một giá trị gọi là t-value (giá trị p-value nổi tiếng cũng được lấy trực tiếp từ t-value). Giá trị này được tính như sau:

\[t = \frac{\bar{x} - \mu _{0}}{\frac{s}{\sqrt{n}}}\]

Công thức toán học này trông có vẻ bí hiểm nhưng thực ra bạn hoàn toàn có thể làm chủ được nó nếu bạn hiểu được hai động lực quan trọng đằng sau nó : phần tử số (ở phía trên) và phần mẫu số (ở phía dưới).

Phần tử số là Tín Hiệu

Phần tử số trong công thức 1-sample t-test đo lường độ mạnh của tín hiệu (signal): sự khác biệt giữa giá trị trung bình của mẫu dữ liệu của bạn \((\bar{x})\) và giá trị trung bình giả thuyết của quần thể \((\mu_{0})\).

Fig 3: The Signal

Trở lại với ví dụ về thời gian chờ của các bệnh nhân, giá trị trung bình giả thuyết là 15 phút.

Nếu các bệnh nhân trong mẫu dữ liệu ngẫu nhiên của bạn có thời gian chờ trung bình là 15.1 phút, tín hiệu bằng 15.1 – 15 = 0.1 phút. Giá trị khác biệt này tương đối nhỏ, do vậy tín hiệu ở phần tử số thì yếu.

Tuy nhiên, nếu thời gian chờ trung bình của bệnh nhân là 68 phút, sự khác biệt sẽ lớn hơn và bằng 68-15=53 phút. Do vậy, tín hiệu sẽ mạnh hơn.

Phần mẫu số là Nhiễu

Phần mẫu số đo lường mức độ dao động hay “nhiễu” (noise) trong mẫu dữ liệu của bạn.

Fig 4: The Noise

Kí hiệu \(\LARGE s\) là độ lệch chuẩn (standard deviation) – mô tả mức dao động trong dữ liệu của bạn. Nếu bạn có một bệnh nhân chờ 50 phút, một bệnh nhân khác chờ 12 phút, một người khác nữa chờ 0.5 phút, một người khác nữa chờ 175 phút,… thì có thể nói rằng dữ liệu của bạn có rất nhiều dao động. Điều này có nghĩa rằng nếu giá trị \(s\) càng lớn, mức độ nhiễu trong dữ liệu của bạn càng lớn. Mặc khác, nếu bạn có một bệnh nhân chờ 14 phút, một người khác chờ 16 phút, một bệnh nhân khác chờ 12 phút, thì có thể nói rằng dữ liệu của bạn có ít dao động. Điều này có nghĩa rằng nếu giá trị \(s\) càng nhỏ thì dữ liệu của bạn sẽ ít “nhiễu” hơn.

Còn kí hiệu \(\sqrt{n}\) ở phía dưới \(s\) có ý nghĩa là gì? Đó là căn bậc hai kích thước mẫu dữ liệu của bạn (ví dụ nếu mẫu của bạn có 30 người thì n = 30). Nếu mọi thứ đều bằng nhau thì dữ liệu của bạn sẽ bị nhiễu nhiều hơn nếu kích thước mẫu dữ liệu của bạn nhỏ và sẽ ít nhiễu hơn nếu kích thước mẫu dữ liệu của bạn lớn.

Giá trị t-value là tỉ lệ của Tín Hiệu so với Nhiễu

Công thức phía trên cho thấy t-value đơn giản là so sánh độ mạnh của tín hiệu với độ nhiễu trong mẫu dữ liệu của bạn.

Nếu tín hiệu tương đối yếu so với mức độ nhiễu thì t-value sẽ nhỏ hơn. Do đó mức độ khác biệt sẽ ít có khả năng có ý nghĩa thống kê.

Fig 5: The Signal and Noise

Ở biểu đồ bên phải của hình phía trên, sự khác biệt giữa giá trị trung bình của dữ liệu \(\bar{x}\) và giá trị trung bình giả thuyết \(\mu_{0}\) là 16 phút. Nhưng bởi vì các dữ liệu trong mẫu bị trải rộng ra nên sự khác biệt này không có ý nghĩa thống kê. Tại sao lại như vậy? Bởi vì t – value — tỉ lệ giữa tín hiệu và nhiễu — thì tương đối bé do mẫu số lớn.

Tuy nhiên, nếu tín hiệu thì mạnh tương đối so với nhiễu, kích thước (tuyệt đối) của t-value sẽ lớn hơn. Do đó, sự khác biệt giữa \(\bar{x}\)\(\mu_{0}\) sẽ có nhiều khả năng có ý nghĩa thống kê hơn.

Fig 6: The Signal is greater than the Noise

Một số dạng kiểm định t-test

Trong thống kê, có ba loại t- test thông dụng, đó là:

  1. One-Sample t Test - Kiểm định t-test 1 mẫu
  2. Independent Samples t Test - Kiểm định t-test mẫu độc lập
  3. Pair sample t test = Kiểm định t-test theo cặp Cụ thể:
– Nếu muốn so sánh giá trị trung bình của tổng thể với một số cụ thể, ta thực hiện One-Sample t-Test. – Nếu muốn so sánh hai giá trị trung bình của hai nhóm tổng thể, ta thực hiện phép kiểm định giả thiết về sự bằng nhau của hai trung bình tổng thể bằng cách sử dụng Independent Samples t-Test.

– Nếu muốn so sánh hai giá trị trung bình của hai nhóm tổng thể riêng biệt với đặc điểm là mỗi phần tử trong tổng thể này có quan hệ tương đồng theo cặp với một phần tử trong tổng thể kia. Một ví dụ đơn giản là ta cho mỗi khách hàng dùng thử hai sản phẩm, sản phẩm trước và sản phẩm sau khi cải tiến, xong yêu cầu họ đánh giá điểm của từng sản phẩm. Mục đích là ta xem xét xem trước và sau khi cải tiến sản phẩm khách hàng có đánh giá tốt hơn không. Để làm được điều này cần sử dụng Pair Sample t-Test.

Kiểm định One Sample t – Test

Kiểm định One-Sample t-Test nhằm mục đích so sánh trung bình (mean) của tổng thể với một giá trị cụ thể nào đó. Chẳng hạn như kiểm tra xem điểm trung bình kỳ thi cuối kỳ của học sinh trong lớp là cao hơn, thấp hơn hay bằng 8 điểm; kiểm tra xem chiều cao trung bình của các ứng viên tham dự cuộc thi Hoa hậu Hoàn Vũ là cao hơn, thấp hơn hay bằng 1,7 mét,..v…v…

Trong phần này, chúng ta sẽ đi sâu vào thực hiện và phân tích kết quả kiểm định One-Sample t-Test dựa trên ví dụ cụ thể:

Quay lại với ví dụ về tập dữ liệu igfi như đã đề cập ở các bài viết trước, chúng ta thấy rằng tuổi trung bình của 100 đối tượng trong nghiên cứu là 19.17 tuổi

mydf <- read.table("C:/Users/Admin/OneDrive/Desktop/Data Analysis with R/R basic/R_Statistics/Dataset/igf.txt", header = TRUE)
mean(mydf$age)
## [1] 19.17

Chúng ta giả sử rằng, trong quần thể này trước đây được biết tuổi thọ trung bình là 30 tuổi. Xem xét xem, giá trị trung bình trong mẫu là 19.17 có thật sự là khác biệt với giá trị 30 hay chỉ là do yếu tố ngẫu nhiên đưa ra. \[t = \frac{\bar{x} - \mu _{0}}{\frac{s}{\sqrt{n}}}\] Với \(\overline{x}\) là giá trị trung bình của mẫu, còn \(\mu_{0}\) là giá trị trung bình theo giả thuyết, s là độ lệch chuẩn và n là số lượng của mẫu, nếu giá trị t-value cao hơn giá trị lý thuyết theo phân phối t ở một tiêu chuẩn với mức ý nghĩa 5%, thì chúng ta có cơ sở để khẳng định khác biệt này có ý nghĩa thống kê.

t.test(mydf$age, mu = 30)
## 
##  One Sample t-test
## 
## data:  mydf$age
## t = -27.656, df = 99, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 30
## 95 percent confidence interval:
##  18.393 19.947
## sample estimates:
## mean of x 
##     19.17

Giá trị t = -27.656 với 99 bậc tự do, giá trị p-value rất thấp, nhỏ hơn 0.05, độ tin cậy 95% [18.393, 19.947], và con số 30 nằm ngoài khoảng này. Nói cách khác, chúng ta có lý do để phát biểu rằng độ tuổi trung bình trong mẫu này thật sự thấp hơn độ tuổi trung bình của quần thể, hay theo ngôn ngữ thống kê. Sự sai lệch này có ý nghĩa thống kê.

Còn tiếp………..