Chương 6: Thống kê đơn biến
R Data Science Series
1. Giới thiệu
Mặc dù chúng ta có thể bị cuốn hút bởi việc phân tích các mối quan hệ giữa các biến ngay từ đầu, nhưng việc xem xét từng biến riêng lẻ trước là một bước đi đúng đắn.
Thông thường, chúng ta cần biết người trả lời đã phản hồi như thế nào đối với từng câu hỏi, hoặc chẳng hạn như một giáo viên đã đặt một câu hỏi cụ thể bao nhiêu lần, trước khi có thể phân tích các mối quan hệ giữa biến đó với các biến khác. Trong nhiều trường hợp, chúng ta chỉ đơn giản muốn biết về một biến riêng lẻ – ví dụ, trong mẫu nghiên cứu của mình có bao nhiêu học sinh nam và bao nhiêu học sinh nữ. Những thông tin mô tả như vậy có thể cung cấp dữ liệu hữu ích về các biến và câu hỏi nghiên cứu của chúng ta. Vì loại phân tích này tập trung vào các biến đơn lẻ, nên nó được gọi là phân tích đơn biến - univariate analysis (hoặc tên gọi khác là thống kê đơn biên).
Bên cạnh việc cung cấp thông tin quan trọng, phân tích đơn biến còn giúp chúng ta phát hiện ra các lỗi có thể xảy ra trong quá trình nhập dữ liệu. Chẳng hạn, chúng ta có thể phát hiện ra một số (dù không phải tất cả) lỗi bằng cách kiểm tra xem có giá trị nào nằm ngoài phạm vi hợp lệ hay không (ví dụ: nếu ta mã hóa học sinh nam là 1 và nữ là 2, thì sẽ không thể xuất hiện giá trị là 3!).
2. Phân phối tần suất
Như đã đề cập ở trên, điều đầu tiên mà chúng ta thường muốn xem xét là số lượng người trả lời theo một cách nhất định, hoặc số lượng người tham gia thuộc các nhóm sắc tộc khác nhau, chẳng hạn. Cách tốt nhất để làm điều này là xem cái mà chúng ta gọi là phân phối tần suất (frequency distribution) của biến. Đây đơn giản là một danh sách tất cả các giá trị mà biến đó có trong mẫu (ví dụ: 451 nam và 449 nữ). Điều tôi muốn biết trong bộ dữ liệu mẫu của chúng ta là có bao nhiêu học sinh nói rằng các em nghĩ mình được điểm cao môn tiếng Anh. Chúng ta hãy cùng xem cách thực hiện việc này bằng ngôn ngữ R.
R codes dưới đây cho biết phân phối tần suất của biến engsc1 trong bộ dữ liệu quants_file_5.sav:
# Chỉ rõ đường dẫn đến quants_file_5.sav trên máy tính cá nhân:
dataPath <- "E:\\Project_QuanEduc\\quants_file_5.sav"
# Load thư viện haven để đọc bộ dữ liệu bằng hàm read_sav():
library(haven)
# Đọc dữ liệu:
read_sav(dataPath) -> dataEduc
# Load thư viện dplyr:
library(dplyr)
# Tính phân phối tần suất cho biến engsc1 (Figure 6.3):
dataEduc %>%
group_by(engsc1) %>%
summarise(Freq = n()) %>%
ungroup() -> dataFig6.3
# Lưu lại kết quả để, ví dụ, trình bày trong nghiên cứu:
write.csv(dataFig6.3, "dataFig6.3.csv", row.names = FALSE)
# Tính toán thêm cột phần trăm:
dataFig6.3 %>%
mutate(Percent = 100*Freq / sum(Freq))
# A tibble: 5 × 3
engsc1 Freq Percent
<dbl+lbl> <int> <dbl>
1 1 [disagree strongly] 41 4.61
2 2 [disagree] 236 26.5
3 3 [agree] 372 41.8
4 4 [agree strongly] 237 26.7
5 NA 3 0.337
Kết quả trên cho chúng ta một số thông tin đáng chú ý. Điều đáng mừng là không có giá trị nào nằm ngoài những gì chúng ta dự đoán (có 4 học sinh không trả lời, kí hiệu NA). Chúng ta cũng có thể thấy rằng phần lớn học sinh (68,7%) cho rằng mình đạt điểm tốt môn tiếng Anh – con số này được tính bằng cách cộng tỷ lệ phần trăm ở hai mức “đồng ý = 3” và “rất đồng ý = 4”. Tuy nhiên, vẫn có một thiểu số đáng kể không nghĩ rằng mình đạt điểm tốt. Rõ ràng, đây là nhóm học sinh mà chúng ta có thể cần đặc biệt quan tâm hoặc hỗ trợ thêm.
Chúng ta cũng có thể minh họa các tần suất dưới dạng hình ảnh - hay còn gọi là Data Visualization. Biểu đồ cột (Bar Plot) là một phương pháp hữu ích để minh họa các tần suất. Dưới đây là R codes cho biểu đồ cột:
# Load thư viện ggplot2 cho data visualization:
library(ggplot2)
# Bar plot:
dataFig6.3 %>%
ggplot(aes(x = engsc1, y = Freq)) +
geom_col() +
labs(title = "Figure 6.5: I get good marks in English",
x = "I get good marks in English",
y = "Frequency")
Trong trường hợp của chúng ta, phân phối (distribution) của biến engsc1 được gọi là lệch về phía phải (skewed positively).
Rõ ràng, bảng tần suất cung cấp cho chúng ta thông tin quan trọng về từng biến riêng lẻ. Tuy nhiên, trong nhiều trường hợp, chúng ta có thể muốn “tóm tắt” (hay mô tả) một biến bằng một con số duy nhất đại diện cho giá trị “điển hình” nhất. Điều này đặc biệt quan trọng khi chúng ta làm việc với các biến liên tục (ví dụ như điểm kiểm tra). Để làm điều đó, chúng ta sử dụng các chỉ số xu hướng trung tâm, thường được gọi là giá trị trung bình (average). Ngay sau đây, chúng ta sẽ xem cách tính giá trị trung bình bằng ngôn ngữ R. Nhưng trước khi làm điều đó, chúng ta cần xem xét một khái niệm gọi là các loại thang đo (levels of measurement).
3. Các loại thang đo
Các loại thang đo (levels of measurement) về cơ bản là cách phân loại các biến. Việc phân loại này rất quan trọng, bởi vì nó ảnh hưởng một cách căn bản đến ý nghĩa của biến cũng như các phép phân tích thống kê mà chúng ta có thể thực hiện, như bạn sẽ thấy sau đây. Có ba mức đo lường cơ bản (một số tác giả phân biệt thành kiểu thang đo, nhưng với hầu hết mục đích thực tiễn, ba mức là đủ): định danh (nominal), thứ bậc (ordinal) và liên tục (continuous).
Thang đo/Biến định danh (nominal variables) là mức đo thấp nhất. Đây là những biến như giới tính, dân tộc, hoặc nơi sinh, trong đó các con số được gán cho các giá trị (ví dụ: 1 cho nam và 2 cho nữ) chỉ đơn thuần có vai trò như một nhãn thay thế tên gọi. Các giá trị này không thể sắp xếp theo thứ tự. Ví dụ, chúng ta không thể nói “nữ thì hơn nam”, vì vậy cũng không thể nói 2 “nhiều hơn” 1. Biến định danh chỉ gồm các danh mục (categories) và không có trật tự, còn các con số nếu có chỉ đơn giản là ký hiệu đại diện (ví dụ: 1 = “nam”) và không có ý nghĩa thật. Bạn hoàn toàn có thể gán 1 với ý nghĩa là Nữ và 2 là Nam, hoặc ngược lại mà không hề thay đổi ý nghĩa. Như vậy 1 và 2 ở đây là những thang đo định danh.
Thang đo/biến thứ bậc (ordinal variables) có thứ tự tự nhiên giữa các categories. Một ví dụ về biến thứ bậc chính là biến mà chúng ta đã đề cập trước đó: “Tôi đạt điểm tốt môn tiếng Anh”. Trong thang đo này, mức “rất đồng ý” được mã hóa là 4, “đồng ý” là 3, “không đồng ý” là 2, và “rất không đồng ý” là 1. Rõ ràng, các giá trị này có thể được sắp xếp theo thứ tự, bởi vì người rất đồng ý thì “đồng ý hơn” người chỉ đồng ý, và cứ thế tiếp tục. Điều này khác với biến giới tính, vốn không có trật tự nội tại. Vì vậy, các thang đo thứ bậc cho phép bạn sắp xếp các giá trị, nhưng không cho phép bạn đo lường chính xác khoảng cách giữa các mức trên thang đo. Tôi sẽ giải thích rõ hơn ý này: Khi bạn dùng thước kẻ, bạn biết rằng khoảng cách từ 23 đến 24 cm là bằng đúng khoảng cách từ 10 đến 11 cm — tức là 1 cm. Tuy nhiên, điều này không đúng khi ta xem xét biến “Tôi đạt điểm tốt môn tiếng Anh”. Liệu khoảng cách giữa “rất đồng ý” và “đồng ý” có bằng với khoảng cách giữa “đồng ý” và “không đồng ý” không? Để biết điều đó, ta cần tìm hiểu cách người trả lời hiểu và suy nghĩ về từng mức độ trong thang đo này: (1) Họ có coi các mức độ đó cách đều nhau không?, và (2) Và liệu điều này có khác nhau giữa các cá nhân? Vì chúng ta không thể biết chắc chắn những điều đó, nên không thể giả định rằng khoảng cách giữa các mức là đồng đều như trên thước đo vật lý. Vì lý do đó, các biến kiểu đồng ý–không đồng ý (agree–disagree) đều được xếp vào loại thang đo thứ bậc (ordinal).
Thang đo/Biến liên tục (Continuous) là loại thang đo hoạt động giống như một chiếc thước đo thực sự. Không chỉ cho phép sắp xếp các mức độ theo thứ tự, mà còn đảm bảo rằng khoảng cách giữa các điểm trên thang đo là bằng nhau. Chúng được đo trên thang đo liên tục, ví dụ như nhiệt độ, cân nặng, hoặc chiều cao. Vậy trong nghiên cứu giáo dục, những biến nào thuộc loại này? Các biến thường được xem là liên tục bao gồm điểm số trong các bài kiểm tra chuẩn hóa, chẳng hạn như SAT (Scholastic Aptitude Test) ở Hoa Kỳ. Tuy nhiên, một số tác giả lại cho rằng trong một số trường hợp, khoảng cách giữa các điểm ở giữa thang đo có thể không hoàn toàn bằng khoảng cách ở hai đầu thấp và cao, nhưng theo thông lệ, loại biến này vẫn được xem là thang đo liên tục. Ngoài ra, trong nghiên cứu, chúng ta đôi khi cũng quan tâm đến các biến như tuổi hoặc cân nặng khi sinh, đây cũng là các biến liên tục.
Bất kể trong nghiên cứu của bạn có những loại biến (và do đó là tương ứng với kiểu thang đo) gì thì điều quan trọng cần nhớ là: (1) loại phân tích thống kê gì có thể áp dụng với kiểu biến hay thang đo đó, và (2) diễn giải kết quả và ý nghĩa của chúng như thế nào.
Liệu các biến thứ bậc (ordinal) và định danh (nominal) có thực sự được xem là đo lường được?
Một số nhà nghiên cứu cho rằng các biến định danh và thứ bậc không phải là biến mà có thể đo lường thực sự, nếu xét theo cách hiểu về đo lường trong các ngành khoa học tự nhiên. Theo quan điểm này, một phép đo thực sự phải là biến liên tục và phải tuân thủ các mô hình toán học về đo lường, đặc biệt là mô hình Rasch.
Những thước đo không tuân theo mô hình này được xem là gây cản trở cho sự phát triển khoa học trong lĩnh vực khoa học xã hội và hành vi. Tất nhiên, những nhà nghiên cứu theo hướng này không ám chỉ các biến như giới tính, mà chủ yếu đề cập đến các thang đo thành tích, các khái niệm tâm lý (như nhận thức bản thân) và thái độ.Họ cho rằng nếu chúng ta sử dụng mô hình Rasch để xây dựng các công cụ đo lường, thay vì chỉ sử dụng các thang đo thứ bậc hiện có, thì khoa học hành vi sẽ tiến gần hơn đến chuẩn mực khoa học của các ngành khoa học tự nhiên.
Một tài liệu tổng quan tốt về các lập luận này và ứng dụng thực tiễn của mô hình Rasch có thể tìm đọc trong tài liệu của Bond và Fox (2002).
4. Đo lường xu hướng trung tâm
4.1 Trung bình, trung vị và mode
Sau khi đã tìm hiểu về các loại thang đo, giờ chúng ta có thể xem xét một số chỉ số xu hướng trung tâm (measures of central tendency), hay còn gọi là giá trị trung bình (average).
Thông thường, khi nói đến “trung bình” trong đời sống hàng ngày, giá trị mà ta nghĩ đến chính là trung bình cộng (mean). Trung bình cộng được tính đơn giản bằng tổng tất cả các giá trị chia cho số lượng quan sát.
Ví dụ, nếu chúng ta có bộ dữ liệu về chiều cao (tính bằng centimet) của 8 người trong một lớp học, ta sẽ tính trung bình bằng cách cộng tất cả các chiều cao (giả sử bằng 1.441 cm) rồi chia cho số người (8), cho ra kết quả chiều cao trung bình là 180,125 cm. Mặc dù đây là cách hiểu phổ biến nhất khi chúng ta nói đến “trung bình”, nhưng loại trung bình này chỉ phù hợp với một loại biến duy nhất: biến liên tục.
Hãy cùng suy nghĩ về điều này: giả sử ta tính trung bình cho một biến định danh, chẳng hạn giới tính mà trong đó Nam = 1 và Nữ = 2. Nếu tính trung bình giới tính, ta thu được giá trị 1,44. Điều này có nghĩa gì? Liệu người trung bình trong bộ dữ liệu là một cá thể lưỡng tính với thiên hướng hơi nam hơn nữ? Rõ ràng, không có người nào như vậy thực sự tồn tại trong dữ liệu – giá trị này về bản chất là vô nghĩa.
Vấn đề tương tự cũng xuất hiện khi chúng ta tính trung bình của biến thứ bậc (ordinal). Giả sử ta có câu hỏi là “Bạn có thích công việc của mình hay không?” trong đó 1 = Rất không thích, 2 = Không thích, 3 = Thích, 4 = Rất thích. Nếu giá trị trung bình là 2,56, nhưng giá trị này không tương ứng với bất kỳ phương án trả lời nào từ 1 đến 4. Có vẻ như nó nằm đâu đó giữa Không thích (có giá trị 2) và Thích (có giá trị 3) và hơi nghiêng về Thích. Tuy nhiên, đây cũng không phải là một cách diễn giải có nhiều ý nghĩa.
Do vậy, chúng ta cần sử dụng một thước đo khác về xu hướng trung tâm. Một trong những thước đo đó là trung vị (median). Trung vị là giá trị nằm giữa khi ta sắp xếp tất cả các quan sát theo thứ tự tăng dần hoặc giảm dần. Nếu số quan sát là lẻ, trung vị là giá trị ở giữa. Nếu số quan sát là chẵn, trung vị là trung bình cộng của hai giá trị giữa. Trung vị có ưu điểm là được dùng nhiều trong thống kê vì không bị ảnh hưởng bởi các giá trị ngoại lai/bất thường (outliers) - hay những quan sát có giá trị cao hoặc thấp bất thường như trung bình cộng.
Ví dụ về trung vị
Giả sử chiều cao (tính bằng cm) của 5 học sinh sau khi sắp xếp theo chiều tăng dần là 160, 165, 170, 175, 180. Trong tình huống này, trung vị là 170. Một ví dụ khác là số giờ tự học trong tuần của 6 học sinh sau khi được swps xếp theo chiều tăng dần là 5, 6, 7, 8, 9, 10 thì trung bị sẽ là (7 + 8) / 2 = 7.5.
Trong cả hai trường hợp sẽ có 50% số quan sát có giá trị lớn hơn giá trị của trung vị và 50% còn lại sẽ có giá trị thấp hơn.
Một thước đo xu hướng trung tâm nữa là mode. Đây là giá trị mà xuất hiện phổ biến nhất. Chẳng hạn nếu điểm thi môn Toán của mẫu gồm 5 học sinh là 6, 6, 5, 7, 9 thì mode là 6. Trong một mẫu, có thể tồn tại nhiều mode. Chẳng hạn nếu mẫu quan sát là 6 và điểm Toán tương ứng là 6, 6, 5, 7, 9, 9 thì 6 và 9 là hai mode.
Mode có thể áp dụng cho cả ba loại biến (thang đo). Tuy nhiên trung bình và trung vị chỉ có thể áp dụng cho biến liên tục mà thôi.
Trung bình (mean hay average) có một nhược điểm là thống kê này rất nhạy cảm với nhưng giá trị bất thường (outliers). Hãy xét một mẫu 11 người có các mức lương hàng năm (đơn vị là Dollar) ương ứng là 27900, 38400, 20100, 26400, 60000, 42600, 22700, 55700, 550000, 25600, và 32600. Ta có thể dễ dàng tính mức lương trung bình là 82000 - một con số rất cao. Tuy nhiên khi nhìn kĩ thì con số trung bình này lớn hơn mức lương của 10 người trong số 11 quan sát trong mẫu đã chọn. Nguyên nhân là trong số 11 người này, có 1 người với mức lương cao tới 550000 khác biệt hoàn toàn so với những người còn lại. Do vậy trong trường hợp này sử dụng trung vị sẽ hợp lí hơn. Trung vị của mẫu sẽ là 32600.
4.2 Tính toán các thước đo trung tâm bằng R
Dưới đây là R codes để tính toán hai trong số ba thước đo xu hướng trung tâm:
# A tibble: 1 × 2
MEAN MEDIAN
<dbl> <dbl>
1 2.91 3
Còn mode là giá trị mà chúng ta không cần phải tính nữa. Vì các kết quả ở trên đã chỉ ra rằng 3 chính là mode. Đây là giá trị xuất hiện với tần suất lớn nhất (xuất hiện 372 lần).
Chúng ta cũng có thể tính toán trung bình và trung vị cho ví dụ về mức lương của 11 nhân viên như sau:
# Tạo vector có tên wages lưu thông tin về mức lương của 11 người:
wages <- c(27900, 38400, 20100, 26400, 60000, 42600,
22700, 55700, 550000, 25600, 32600)
# Trung bình:
mean(wages)
[1] 82000
[1] 32600
5. Đo lường mức độ phân tán
5.1 Range, khoảng tứ phân vị và độ lệch chuẩn
Các thước đo trung tâm cho chúng ta những thông tin quan trọng khi mô tả các biến số. Nhưng chúng không nói hết toàn bộ câu chuyện. Hãy xét ví dụ về điểm thi của 12 học sinh ở hai trường học giả định dưới đây:
Case School1 School2
1 1 45 60
2 2 50 65
3 3 55 65
4 4 60 70
5 5 65 70
6 6 70 70
7 7 70 70
8 8 75 70
9 9 80 70
10 10 85 75
11 11 90 75
12 12 95 80
Giá trị trung vị và trung bình của cả hai trường đều bằng 70. Điều này có thể khiến chúng ta kết luận rằng mức độ đạt được của học sinh ở hai trường là tương đương. Tuy nhiên, nếu quan sát kỹ hơn dữ liệu, chúng ta sẽ thấy rõ ràng có nhiều điều đáng chú ý. Mặc dù các chỉ số xu hướng trung tâm giống nhau, nhưng chúng đạt được theo những cách rất khác nhau. Ở trường 1, các giá trị phân bố khá rộng, dao động từ 45 đến 95, trong khi ở trường 2, tất cả học sinh dường như có điểm số gần nhau hơn, với điểm thấp nhất là 60 và cao nhất là 80, và có sáu học sinh đạt điểm 70. Nếu chỉ dựa trên các chỉ số xu hướng trung tâm mà kết luận rằng thành tích ở cả hai trường là tương đồng, chúng ta sẽ bỏ qua một số khác biệt quan trọng. Rõ ràng, mức độ phân tán của các giá trị quanh trung bình hoặc trung vị là khác nhau.
Đó là lý do tại sao, bên cạnh các chỉ số xu hướng trung tâm, chúng ta cũng cần đến các chỉ số đo độ phân tán nếu muốn mô tả đầy đủ các biến của mình.
Cách đầu tiên để xem xét độ phân tán có vẻ hiển nhiên: Tại sao không chỉ đơn giản lấy giá trị lớn nhất trừ đi giá trị nhỏ nhất, để thu được khoảng (range) của tập dữ liệu? Nếu chúng ta áp dụng cách này, ta thu được khoảng dao động là 50 đối với trường 1 và 20 đối với trường 2 – thể hiện khá rõ sự khác biệt giữa hai trường. Tuy nhiên, chỉ số này không phải lúc nào cũng phản ánh chính xác mức độ phân tán. Hãy xem xét ví dụ về mức lương, nơi chúng ta phân tích mức lương trong một tổ chức. Nếu tính range bằng cách lấy mức lương cao nhất trừ đi thấp nhất, ta sẽ có kết quả là 529.500. Điều này dường như cho thấy khoảng phân tán rất lớn, tức là các giá trị nằm cách xa trung bình. Tuy nhiên, nếu xem xét kỹ dữ liệu, điều này không hoàn toàn đúng. Trên thực tế, chính một giá trị ngoại lai duy nhất đã làm sai lệch chỉ số này, khiến mức độ phân tán có vẻ lớn hơn thực tế.
Chúng ta có thể làm gì để giải quyết vấn đề này? Một phương pháp phổ biến là sử dụng chỉ số gọi là khoảng tứ phân vị (interquartile range). Khoảng tứ phân vị được tính bằng cách đầu tiên sắp xếp mẫu từ thấp đến cao, sau đó chia thành bốn phần bằng nhau. Sau đó, chúng ta cần tính tứ phân vị thứ nhất (kí hiệu Q1) và tứ phân vị thứ ba (kí hiệu Q3) theo cách thức như sau: ở trường 1, nó nằm giữa giá trị 55 và 60 (ta lấy trung bình cộng của hai giá trị này, giống như cách tính trung vị khi số lượng trường hợp là số chẵn), và kết quả là 57,5. Ở trường 2, nó nằm giữa 65 và 70, tức là 67,5. Tiếp theo, chúng ta tính tứ phân vị thứ ba. Ở trường 1, nó nằm giữa 80 và 85 (kết quả là 82,5), còn ở trường 2, nó nằm giữa 70 và 75 (kết quả là 72,5). Cuối cùng, chúng ta có thể tính được khoảng tứ phân vị bằng cách lấy tứ phân vị thứ ba trừ đi tứ phân vị thứ nhất. Tức là:
- Trường 1: Q3 - Q1 = 82.5 − 57.5 = 25
- Trường 2: Q3 - Q1 = 72.5 − 67.5 = 5
Một lần nữa, chúng ta thấy rằng mức độ phân tán ở trường 2 nhỏ hơn nhiều so với trường 1.
Chỉ số này (khoảng tứ phân vị) ít có khả năng bị sai lệch bởi các giá trị ngoại lai hơn so với khoảng dao động, bởi vì nó loại bỏ tất cả các giá trị cực trị ở phần trên và dưới của phân phối. Tuy nhiên, một nhược điểm của phương pháp này là nó chỉ sử dụng một phần nhỏ thông tin sẵn có, vì chúng ta chỉ xem xét hai giá trị khi tính toán khoảng phân tán. Một chỉ số có thể tận dụng toàn bộ thông tin hiện có – vì nó tính đến tất cả các giá trị chứ không chỉ hai – đó chính là độ lệch chuẩn (standard deviation).
Độ lệch chuẩn (viết tắt là SD) là một chỉ số dùng để đo mức độ phân tán của các giá trị trong một phân phối so với giá trị trung bình. Chỉ số này có liên hệ với một đại lượng gọi là phương sai (variance)- thống kê mà bạn có thể cũng sẽ gặp phải trong các chương kế tiếp. Trên thực tế, độ lệch chuẩn chính là căn bậc hai của phương sai. Còn phương sai được tính bằng tổng bình phương các độ lệch giữa từng quan sát với giá trị trung bình, sau đó chia cho số lượng quan sát trừ đi 1. Bạn không cần quá lo lắng về công thức cụ thể, điều quan trọng là hiểu rằng phương sai được tính bằng cách đo lường mức độ chênh lệch của từng quan sát so với trung bình. Điều này đồng nghĩa với việc độ lệch chuẩn (và tất nhiên là cả phương sai) chỉ có thể được tính trong những trường hợp mà chúng ta có thể tính được trung bình. Do đó, chúng ta chỉ có thể tính độ lệch chuẩn đối với các biến liên tục. Với các biến thứ bậc (ordinal variables), việc sử dụng khoảng là phù hợp hơn. Còn đối với các biến định danh (nominal variables), thì việc tính các chỉ số đo độ phân tán là không có ý nghĩa.
5.2 Tính các thước đo phân tán bằng R
Trước hết ta lưu thông tin về điểm thi của 12 học sinh đến từ hai trường như sau:
# Vector điểm thi học sinh của hai trường:
School1 <- c(45, 50, 55, 60, 65, 70, 70, 75, 80, 85, 90, 95)
School2 <- c(60, 65, 65, 70, 70, 70, 70, 70, 70, 75, 75, 80)
# Range cho hai trường:
range(School1)
[1] 45 95
[1] 60 80
[1] 15.81139
[1] 5.22233
0% 25% 50% 75% 100%
45.0 57.5 70.0 82.5 95.0
0% 25% 50% 75% 100%
60.0 67.5 70.0 72.5 80.0
Trong trường hợp chúng ta đã có sẵn bộ dữ liệu thì chúng ta không cần phải đầu tiên là nhập số liệu, sau đó mới tính toán như trên. Mà có thể làm như sau. Dưới đây là R codes tính khoảng và SD cho engsc1:
[1] 0.8434492
<labelled<double>[2]>: I get good marks in English
[1] 1 4
Labels:
value label
1 disagree strongly
2 disagree
3 agree
4 agree strongly
Độ lệch chuẩn là 0.843. Trong một mẫu lớn, khoảng 68% người trả lời sẽ nằm trong phạm vi ±1 độ lệch chuẩn quanh giá trị trung bình. Ta biết rằng giá trị trung bình là 2.91. Do đó, khoảng 68% quan sát nhiều khả năng sẽ nằm trong khoảng từ 2.91 − 0.843 (= 2.067) đến 2.91 + 0.843 (= 3.753), và khoảng 95% quan sát sẽ nằm trong phạm vi ±2 độ lệch chuẩn quanh trung bình. Tuy nhiên, vấn đề trong trường hợp này là các giá trị đó không tương ứng với bất kỳ phản hồi thực tế nào. Nguyên nhân là vì đây là một biến thứ bậc (ordinal variable). Trong trường hợp này, một chỉ số phù hợp hơn là khoảng, với giá trị là 3 – tương ứng với hiệu số giữa giá trị cao nhất và giá trị thấp nhất trong thang đo.
Những ngộ nhận phổ biến
1. Nếu một biến được đo bằng số, thì chúng ta có thể sắp xếp nó, đúng không?
Không hẳn như vậy. Khi sử dụng các phương pháp thống kê, chúng ta phải gán số cho các categories để có thể thực hiện các phép tính. Tuy nhiên, trong một số trường hợp, các con số này chỉ đơn thuần là sự thay thế cho một nhãn không thể sắp xếp, chẳng hạn như nơi sinh. Ta có thể gán 1 cho Pháp, 2 cho Tây Ban Nha, 3 cho Anh Quốc, v.v., nhưng điều đó không có nghĩa là ta có thể sắp xếp các quốc gia này theo một trật tự có ý nghĩa nào đó.
2. “Average” và “mean” là một, đúng không?
Trong đời sống hằng ngày, khi chúng ta nói đến “trung bình - average”, thường là đang ám chỉ “mean” (giá trị trung bình cộng). Tuy nhiên, trong thống kê, “mean” chỉ là một dạng của trung bình. Ngoài mean, còn có mode (giá trị xuất hiện nhiều nhất) và median (trung vị) cũng là các dạng của trung bình.
3. Khi có biến liên tục, ta luôn dùng mean làm chỉ số xu hướng trung tâm, đúng không?
Không hẳn vậy. Mean không phải lúc nào cũng là chỉ số xu hướng trung tâm phù hợp nhất đối với các biến liên tục. Các giá trị ngoại lai (trường hợp cực đoan) có thể làm sai lệch mean, như đã minh họa trong ví dụ về mức lương. Trong những trường hợp có ngoại lệ như vậy, median có thể phản ánh chính xác hơn xu hướng trung tâm – ngay cả đối với các biến liên tục.
4. Khi có biến định danh, ta dùng khoảng để đo độ phân tán, đúng không?
Không. Với các biến định danh, khái niệm về độ phân tán là không có ý nghĩa. Do chúng ta không thể sắp xếp các danh mục, nên việc xem xét mức độ phân tán (quanh mode chẳng hạn) không phải là cách tiếp cận hợp lý.
6. Tóm tắt chương
Trong chương này, chúng ta đã xem xét cách mô tả các biến đơn lẻ, hay còn gọi là phân tích đơn biến (univariate analysis). Một trong những bước hiển nhiên và quan trọng nhất khi bắt đầu phân tích là xem xét phân phối tần số của các biến. Bên cạnh việc quan sát phân phối tần số, chúng ta thường muốn mô tả trường hợp hay phản hồi tiêu biểu nhất, hoặc mang tính đại diện nhất. Để làm điều này, chúng ta sử dụng các chỉ số xu hướng trung tâm (measures of central tendency).
Để có thể tính được các chỉ số này, trước hết cần xác định mức độ đo lường của biến. Có ba mức độ đo lường: định danh (nominal), thứ bậc (ordinal), và liên tục (continuous).
Biến định danh, như chủng tộc hoặc dân tộc, không cho phép chúng ta sắp xếp các danh mục theo thứ tự. Mọi con số hoặc nhãn gán chỉ đóng vai trò là ký hiệu đại diện.
Biến thứ bậc cho phép chúng ta sắp xếp các danh mục theo thứ tự từ thấp đến cao, từ ít đến nhiều (hoặc từ phản đối đến đồng ý), nhưng không thể đo lường chính xác khoảng cách giữa các điểm trên thang đo. Một ví dụ tiêu biểu là các thang đo dạng “đồng ý – phản đối”.
Biến liên tục cho phép chúng ta vừa sắp xếp các giá trị theo thứ tự, vừa xác định được rằng khoảng cách giữa các giá trị là bằng nhau – như khi đo chiều dài bằng thước dây.
Tương ứng với ba mức độ đo lường này là ba chỉ số xu hướng trung tâm:
Mode (giá trị xuất hiện nhiều nhất) là chỉ số phù hợp nhất cho các biến định danh.
Median (trung vị) là giá trị nằm ở giữa trong một tập dữ liệu đã được sắp xếp từ thấp đến cao. Đây là chỉ số thích hợp nhất cho biến thứ bậc.
Mean (giá trị trung bình cộng) là tổng của tất cả các giá trị chia cho số quan sát. Đây là chỉ số tốt nhất cho biến liên tục, trừ khi tồn tại các giá trị ngoại lai – khi đó, median có thể phản ánh chính xác hơn.
Bên cạnh các chỉ số xu hướng trung tâm, chúng ta cũng thường quan tâm đến các chỉ số đo độ phân tán của các giá trị quanh trung tâm.
Khoảng (range) là hiệu số giữa giá trị lớn nhất và nhỏ nhất. Tuy nhiên, vì khoảng rất nhạy cảm với các giá trị ngoại lai, chúng ta thường sử dụng khoảng tứ phân vị (interquartile range) thay thế – tức là hiệu số giữa tứ phân vị thứ ba và tứ phân vị thứ nhất. Cả hai chỉ số này đều phù hợp khi xử lý biến thứ bậc.
Một chỉ số phản ánh tốt hơn toàn bộ thông tin có trong dữ liệu là độ lệch chuẩn (standard deviation). Đây là chỉ số đo mức độ phân tán của tất cả các giá trị quanh trung bình, và phù hợp nhất cho các biến liên tục.
7. Bài tập
Hãy xem dữ liệu (sử dụng trong tài liệu này) mà bạn đã dowload. Bạn có thể tìm được ví dụ nào về biến định danh, biến thứ bậc và biến liên tục không?
Bạn có thể xem phân phối tần số của hai biến “Tôi thích đến trường” và “Trường học thật nhàm chán” không? Bạn có thể rút ra nhận xét gì về hai biến này?
Bạn có thể so sánh xu hướng trung tâm và độ phân tán của hai biến “Tôi thích đến trường” và “Trường học thật nhàm chán” không? Bạn sử dụng những chỉ số nào, và chúng cung cấp thông tin gì?
Bạn có thể so sánh xu hướng trung tâm của điểm toán và điểm tiếng Anh không? Bạn sử dụng chỉ số nào? Và điều đó cho bạn biết điều gì?
Bạn có thể so sánh độ phân tán của hai biến điểm toán và điểm tiếng Anh không? Bạn sử dụng những chỉ số nào và chúng cho bạn biết điều gì?
8. Tài liệu tham khảo thêm
Bất kỳ giáo trình thống kê cơ bản nào cũng sẽ bao gồm một phần về các chỉ số xu hướng trung tâm và độ phân tán. Đối với những ai muốn tìm hiểu ở mức độ toán học sâu hơn so với nội dung được trình bày ở đây, tài liệu sau là một nguồn tham khảo hữu ích: Carslon, K., & Winquist, J. (2021). An introduction to statistics: An active learning approach (ấn bản lần thứ 3). Sage Publications.
9. Tài liệu tham khảo
Bond, T. G., & Fox, A. (2002). Applying the Rasch model. Mahwah, NJ: Lawrence Erlbaum