Thống kê học là một cách tư duy về dữ liệu. Khi chúng ta chưa tính toán có các tham số cụ thể của thống kê, thường chúng ta sẽ nghĩ đến việc suy luận mang tính chất định tính, liệu dữ liệu đó có mối tương quan gì hay không và liệu biến số này và biến số kia tương quan cùng chiều hay ngược chiều với nhau.

     Trong phân tích dữ liệu bằng mô hình thống kê có hai cách tiếp cận, đó là:

     Hai trường phái này tồn tại song song với nhau, khi nhắc đến việc ước tính tham số, thường chúng ta chỉ quan tâm đến việc ước tính các tham số và tính toán khoảng tin cậy của các tham số này. Còn với kiểm định thống kê, chúng ta thường quan tâm tới trị số \(p-value\) của tham số với điều kiện giả thuyết ngược (giả thuyết vô hiệu) là đúng.

Ước tính tham số (Parameters estimation)

     Triết lý thống kê hiện đại dựa vào khái niệm tần số (frequency) và lấy mẫu (sampling). Ví dụ: Để biết chiều cao trung bình của người Việt Nam, cách đo chính xác nhất là đo chiều cao của tất cả dân số Việt Nam rồi tính giá trị trung bình. Trong trường hợp này chúng ta không cần đến mô hình phân tích thống kê và cũng không cần suy luận thống kê vì đã biết tất cả dữ liệu của quần thể rồi.

     Nhưng trong thực tế chúng ta không có đủ phương tiện để đo lường chiều cao của tất cả cá nhân trong quần thể mà chỉ có thể đo lường một số cá nhân được chọn ngẫu nhiên trong quần thể mà thôi. Cái hayđẹp của thống kê là có thể dùng mẫu ngẫu nhiên của quần thể để suy đoán về đặc điểm của quân thể mà chúng ta không biết. Chúng ta không biết chiều cao trung bình của tất cả người Việt là bao nhiêu, nhưng chúng ta chỉ cần đo lường một số người được chọn ngẫu nhiên mà có thể suy luận khá chính xác về chiều cao trung bình của người Việt. Với phương pháp này, chúng ta có thể ước tính theo các bước sau:

     Một trong những chỉ số quan trọng của phân tích mẫu là khoảng tin cậy (KTC- Confidence Interval). KTC có thể tính cho xác suất 90,95,99%, tuy nhiên thông thường chúng ta lấy khoảng tin cậy 95%. Chẳng hạn như qua nghiên cứu trên 100 người và chúng ta có trung bình chiều cao là m=167(cm), độ lệch chuẩn (SD = 6(cm)). Giẳ sử rằng chiều cao tuân theo luật phân bố chuẩn, khi đó ước lượng khoảng tin cậy 95% là: \[m\pm1.96*s=167\pm1.96*6\] dao động trong khoảng 155.2 cm đến 178.8 cm. Nói cách khác, chúng ta có thể suy luận rằng 95% chiều cao của 100 người đó dao động trong khoảng 155.2 cm đến 178.8 cm

     Tuy nhiên để suy luận cho quần thể thì chúng ta chưa biết được giá trị trung bình \(\mu\) của quần thể. Để làm được điều này thì chúng ta cần ước lượng từ mẫu, chúng ta suy luận về khoảng tin cậy của \(\mu\) là: \[m\pm1.96\Big(\frac{s}{\sqrt{n}}\Big) = 167\pm1.96\Big(\frac{6}{\sqrt{100}}\Big)\]

Tham số \(\frac{s}{\sqrt{n}}\) được gọi là sai số chuẩn (standard error). Sai số chuẩn được định nghĩa là độ lệch chuẩn của các trung bình mẫu. Ví dụ nếu chúng ta lấy k mẫu, mỗi mẫu chúng tính giá trị trung bình, như vậy chúng ta có tập hợp k số trung bình mẫu là: \(x_{1},x_{2},x_{3},...,x_{k}\). Độ lệch chuẩn của bộ số này chính là sai số chuẩn. Trong nội dung này thì ước tính khoảng tin cậy rơi vào khoảng 165.8 cm đến 168.2 cm, con số KTC 95% ngày có nghĩa là nếu chúng ta lặp lại nghiên cứu này rất nhiều lần, mỗi lần lấy mẫu có 100 người, thì 95% các nghiên cứu đó sẽ cho ra số trung bình mẫu trong khoảng 165.8 đến 168.2 cm.

     Một cách suy luận, diễn giải khác mặc dù không được chính xác tuyệt đối nhưng có thể coi 95% xác suất mà thông số \(\mu\) của quần thể dao động từ 165.8 đến 168.2 cm.

Kiểm định thống kê

     Một trường phái khác trong phân tích thống kê là kiểm định thống kê. Đây là trường phái được Ronald A. Fisher, là cha đẻ của khoa học thống kê hiện đại, ông đã đề xướng và sử dụng rất thành công. Phương pháp kiểm định giả thuyết thống kê ảnh hưởng rất nhiều của triết lí phản nghiệm (falsificationism) của Karl Popper. Theo Popper, chúng ta không thể chứng minh một giả thuyết là đúng hay sai; chúng ta chỉ có thể bác bỏ hay phản nghiệm giả thuyết với dữ liệu thực nghiệm.

Ronald Aylmer Fisher

Ronald Aylmer Fisher

Fisher chịu ảnh hưởng nhiều bởi tư tưởng của Popper, ông đề ra phương pháp gọi là “Test of Significance” - Phương pháp kiểm định ý nghĩa thống kê. Theo đó thì thống kê là một môn khoa học suy luận, tức là phương pháp suy luận dựa vào quan sát từ các mẫu và khái quát nó cho một quần thể. Phương pháp này tiến hành theo 3 bước sau đây:

     Fisher đề nghị dùng trị số p-value để bác bỏ hay chấp nhận giả thuyết \(H_{0}\). p-value là xác suất dữ liệu xảy ra trong điều kiện giả thuyết vô hiệu là đúng, do đó nếu p-value thấp thì chúng ta sẽ bác bỏ giả thuyết vô hiệu.

     Trong thực tế, đôi khi chúng ta coi p-value như là một chỉ số mang tính ngạc nhiên. Để minh họa cho ý nghĩa này, xét dữ liệu được viết trong báo soha.vn vào ngày 27/4/2013, một em học sinh lớp 12 có chiều cao “Khủng” là 204 cm. Câu hỏi đặt ra là chiều cao này có gì bất thường với quần thể chiều cao người Việt Nam hay nói cách khác chiều cao này có thực sự “Khủng”, “đáng ngạc nhiên” hay không?

     Dĩ nhiên, có khủng hay không thì cần phải so sánh với chiều cao trung bình của người Việt Nam. Đối với các nghiên cứu trước đây thì chiều cao trung bình của quần thể người Việt Nam là 170 cm và độ lệch chuẩn là 6.3 cm. Biểu đồ phân bố histogram như sau:

library(ggplot2)
id <- c(1:1000)
height <- rnorm(1000, mean = 170, sd = 6.3)
df <- data.frame(id, height)
ggplot(df, aes(x=height))+
  geom_histogram(aes(y=..density..),color="darkblue", fill="lightblue") -> p
p + geom_vline(aes(xintercept = mean(height)), color = "red", linetype = "dashed", size = 1) + geom_density(alpha=.2, fill="#FF6666") 

Chiều cao em học sinh khủng là 204 cm, tức nằm ngoài giá trị kỳ vọng khá xa. Chúng ta tính xác suất chiều cao em học sinh này trong điều kiện là giả sử chiều cao của em này không có gì khác biệt so với chiều cao trung bình của quần thể người Việt nam \[P(height\geq 204|\mu =170, \sigma=6.3)= 0.0000000339\] Đây chính là giá trị p-value, rất thấp và do đó tính đáng ngạc nhiên ở đây là có ý nghĩa thống kê hay chiều cao của em học sinh này thực sự khủng.

Mô hình chung kiểm định giả thuyết thống kê

     Jersey Nayman (1894-1981) là một nhà toán học lỗi lạc gốc Balan và Egon Pearson (1895-1980) là con của nhà thống kê học (Karl Pearson, cha đẻ của lý thuyết Chi-square và hệ số tương quan) cùng thời gian với Fisher đã sáng tạo ra một phương pháp khác, gọi là (Test of Hypothesis); theo quan điểm của 2 người này thì thống kê học là một phương pháp hay một cơ chế để hướng dẫn chúng ta đi đến một quyết định đúng đắn về lâu dài.

Jersey Nayman and Egon Pearson

Fisher and Jerseyy Nayman; Egon Pearson

Các bước mà hai nhà khoa học này xây dựng kiểm định giả thuyết thống kê như sau: