Chương 4: Tính hợp lệ, tính tin cậy và khả năng khái quát hóa của thang đo
R Data Science Series
Ba khái niệm then chốt trong các phương pháp định lượng là tính hợp lệ (validity), tính tin cậy (reliability) và khả năng khái quát hóa (generalisability). Cả ba đều liên quan đến việc đo lường (measurement). Bất cứ khi nào chúng ta tiến hành nghiên cứu định lượng, chúng ta đều đang cố gắng đo lường một điều gì đó. Chẳng hạn, ta có thể muốn xem xét thành tích học tập của học sinh trong môn lịch sử. Thành tích là một khái niệm mà chúng ta cần tìm cách đo lường – thông qua bài kiểm tra, thông qua bài luận. Ta cũng có thể muốn đo nhận thức bản thân của giáo viên (self-esteem). Để làm điều đó, ta sẽ sử dụng một công cụ đo lường mức độ nhận thức bản thân của giáo viên. Việc đo lường sẽ cung cấp các con số mà chúng ta sử dụng trong các phân tích định lượng. Câu hỏi đặt ra sau đó là: liệu chúng ta có đang đo đúng điều mà mình đang muốn đo hay không?. Nếu bạn muốn đo cân nặng của mình, bạn sẽ cần đảm bảo rằng:
Bạn đang không đang đo nhầm một thứ nào khác (ví dụ: chiều cao); và
Chiếc cân mà bạn đang sử dụng là tuyệt đối không được đỏng đảnh khi cho ra kết quả (ví dụ: mỗi lần đo lại cho một kết quả khác nhau).
Điều tương tự cũng đúng khi chúng ta cố gắng đo lường các khái niệm trong nghiên cứu giáo dục. Đây chính là lúc tính hợp lệ và độ tin cậy trở của thang đo nên quan trọng.
Chúng ta đã thấy trong chương trước rằng trong phần lớn trường hợp, ta sẽ chọn một mẫu thay vì nghiên cứu toàn bộ quần thể. Khi làm vậy, điều chúng ta thực sự mong muốn là có thể đưa ra nhận định về các đặc điểm của toàn bộ quần thể, chứ không chỉ riêng cho mẫu đã khảo sát. Việc này được gọi là khái quát hóa từ mẫu sang quần thể, và đó là khái niệm thứ ba mà chúng ta sẽ thảo luận trong chương này.
1. Tính hợp lệ
1.1 Tính hợp lệ là gì
Tính hợp lệ đặt ra câu hỏi: “Liệu chúng ta có đang đo đúng điều/thứ mà chúng ta muốn đo hay không?”. Nghe có vẻ hiển nhiên, nhưng trong nghiên cứu giáo dục, điều này thường không hề đơn giản. Phần lớn các khái niệm mà chúng ta muốn đo – ví dụ như nhận thức bản thân (self-concept) hoặc thái độ là không thể đo một cách trực tiếp. Nhận thức bản thân là một khái niệm trừu tượng, và ở một mức độ nào đó, nó chỉ trở nên “hiện hữu” khi được đo lường. Chúng ta không thể kết nối trực tiếp vào não của một người để biết họ đang nghĩ gì, cảm thấy thế nào hoặc đang trải nghiệm điều gì. Theo nghĩa đó thì “nhận thức bản thân” là một biến tiềm ẩn (latent variable), tức là một biến không thể đo trực tiếp. Do đó, chúng ta cần phát triển những công cụ đo lường gián tiếp các khái niệm này – chẳng hạn như bằng bảng hỏi. Mỗi câu hỏi trong bảng hỏi sẽ trở thành một biến quan sát được (manifest variable), tức là biến mà ta có thể đo lường trực tiếp, được thiết kế để làm rõ khái niệm tiềm ẩn bên dưới. Việc xây dựng một công cụ đo phù hợp với những biến quan sát phù hợp để phản ánh chính xác biến tiềm ẩn, rõ ràng là một nhiệm vụ cực kỳ quan trọng – và không dễ chút nào.
Điều tương tự cũng đúng với các khái niệm thoạt đầu có vẻ dễ đo hơn. Một trong những phương pháp phổ biến nhất trong nghiên cứu định lượng giáo dục là bài kiểm tra thành tích học tập. Công cụ này thường được sử dụng như một thước đo kết quả trong các nghiên cứu giáo dục (ví dụ: các đặc điểm của nhà trường ảnh hưởng đến thành tích ra sao). Tuy nhiên, câu hỏi đặt ra là: chúng ta thực sự muốn đo điều gì? Thông thường, điều chúng ta muốn đánh giá là kiến thức thực sự của học sinh về một môn học, hoặc những gì họ đã học được – chứ không chỉ là điểm số trong một bài kiểm tra cụ thể. Rốt cuộc, mục tiêu thực sự của giáo dục là học tập, chứ không phải điểm số trong một bài kiểm tra thành tích. Mà việc học, cũng giống như nhận thức bản thân, không thể đo một cách trực tiếp. Để làm được điều đó, ta sẽ phải “kết nối trực tiếp” vào não bộ con người và xem xét những gì thực sự đã diễn ra bên trong. Các bài kiểm tra, bài luận và bất kỳ công cụ đo nào khác mà chúng ta sử dụng đều chỉ là các thước đo gián tiếp của quá trình học tập. Và việc những thước đo đó có tốt hay không vẫn là một chủ đề gây nhiều tranh cãi. Liệu các bài kiểm tra có quá hẹp không? Chúng có đang đo trí nhớ hay năng lực hiểu bài? Tất cả những câu hỏi này đều liên quan trực tiếp đến tính hợp lệ của bài kiểm tra.
Điều này có nghĩa là tính hợp lệ có lẽ là yếu tố quan trọng nhất trong việc thiết kế bất kỳ công cụ đo lường nào trong nghiên cứu giáo dục. Dù cho thiết kế nghiên cứu của chúng ta có tốt đến đâu, hay các phân tích thống kê có tinh vi đến mức nào, thì kết quả cũng sẽ trở nên vô nghĩa nếu chúng ta không thực sự đo đúng điều mà mình tuyên bố là đang đo.
1.2 Các kiểu hợp lệ
Có ba kiểu hợp lệ khác nhau và tất cả chúng đều quan trọng: (1) hợp lệ về nội dung ( content validity), (2) tính hợp lệ về tiêu chuẩn (criterion validity), và (3) hợp lệ về cấu trúc (construct validity).
Hợp lệ về nội dung (Content validity)
Tính hợp lệ nội dung (content validity) đề cập đến việc liệu nội dung của các biến quan sát được (ví dụ: các câu hỏi trong một bài kiểm tra hoặc bảng hỏi) có thực sự phù hợp để đo biến tiềm ẩn (như nhận thức bản thân, thành tích học tập, thái độ…) mà chúng ta đang cố gắng đo hay không.
Chẳng hạn, nếu ta muốn đo thái độ của học sinh đối với nhà trường, thì không thể đặt câu hỏi: “Em hòa thuận với bố mẹ như thế nào?”. Hoặc câu hỏi khó hơn “Thầy cô của tôi luôn cố gắng giúp đỡ tôi.” thì cần cân nhắc liệu đây có phải là một chỉ số hợp lệ để đo thái độ đối với nhà trường không, hay thái độ với giáo viên là một khái niệm khác?
Rõ ràng, lý thuyết đóng vai trò rất quan trọng trong việc xác định tính hợp lệ nội dung. Càng hiểu rõ lĩnh vực nghiên cứu và định nghĩa lý thuyết của khái niệm cần đo, ta càng có khả năng thiết kế một công cụ có tính hợp lệ nội về dung càng tốt. Vì vậy, tiêu chí chính để đánh giá tính hợp lệ nội dung của một công cụ là mức độ phù hợp của nó với lý thuyết về khái niệm đó: khái niệm được cấu thành như thế nào, và nó là gì.
Một cách hiệu quả để đạt được tính hợp lệ nội dung là nghiên cứu kỹ lưỡng các tài liệu học thuật liên quan đến khái niệm mà bạn muốn đo lường. Ngoài ra, việc hỏi người tham gia nghiên cứu xem liệu công cụ hoặc bài kiểm tra có “có vẻ hợp lệ” với họ hay không cũng rất quan trọng. Cách đánh giá này gọi là tính hợp lệ bề mặt (face validity), vì người trả lời đang đưa ra nhận xét dựa trên ấn tượng ban đầu của họ về công cụ đo. Thành lập một hội đồng người phản hồi và yêu cầu họ phản hồi trong quá trình bạn đang phát triển công cụ là một phương pháp hữu ích.
Tuy nhiên, một vấn đề của tính hợp lệ bề mặt là người dùng phổ thông có thể không hiểu rõ lý thuyết nền hoặc các sắc thái của khái niệm cần đo. Trong trường hợp đó, việc nhờ đến một hội đồng các chuyên gia trong lĩnh vực đánh giá công cụ đo sẽ rất hữu ích. Chú ý rằng sử dụng hội đồng chuyên gia không có nghĩa là bạn nên bỏ qua tính hợp lệ bề mặt, vì ấn tượng và cảm nhận của người trực tiếp sử dụng công cụ sẽ ảnh hưởng đến cách họ trả lời câu hỏi.
Hợp lệ về tiêu chuẩn (Criterion validity)
Cũng giống như tính hợp lệ nội dung, tính hợp lệ theo tiêu chuẩn có mối liên hệ chặt chẽ với lý thuyết. Khi xây dựng một công cụ đo lường, bạn thường kỳ vọng – ít nhất là về mặt lý thuyết – rằng kết quả đo sẽ liên quan đến các công cụ đo khác hoặc dự đoán được một số kết quả cụ thể.
Ví dụ, nếu bạn xây dựng một bài kiểm tra toán mới, bạn sẽ kỳ vọng rằng điểm số học sinh đạt được trong bài kiểm tra đó sẽ có mối liên hệ nhất định với điểm số mà họ đạt được trong bài kiểm tra toán chuẩn hóa cấp nhà nước – chứ không hoàn toàn không liên quan. Có hai loại tính hợp lệ theo tiêu chuẩn chính: (1) Tính hợp lệ dự đoán (predictive validity), và (2) Tính hợp lệ đồng thời (concurrent validity).
Tính hợp lệ dự đoán liên quan đến việc xem công cụ đo của bạn có dự đoán được các kết quả mà lý thuyết kỳ vọng hay không. Ví dụ, khi tuyển sinh đại học, bạn sẽ dùng điểm của một số bài kiểm tra cụ thể (như SAT hoặc A-level) để đánh giá liệu thí sinh đó có khả năng hoàn thành tốt chương trình học đại học hay không, từ đó quyết định họ có phải là ứng viên phù hợp. Vì vậy, bất kỳ bài kiểm tra nào được dùng cho mục đích này đều cần có khả năng dự đoán mức độ thành công trong học tập của thí sinh. Tương tự, khi phát triển một bài kiểm tra sàng lọc để tuyển dụng nhân viên, bạn cũng kỳ vọng rằng bài kiểm tra đó phản ánh được mức độ phù hợp và hiệu quả làm việc trong tương lai của ứng viên. Việc xác định điều này có đúng hay không sẽ quyết định liệu công cụ của bạn có tính hợp lệ dự đoán hay không.
Tính hợp lệ đồng thời thì ít nghiêm ngặt hơn. Ở đây, câu hỏi đặt ra là Liệu điểm số từ công cụ đo của bạn có tương quan với những yếu tố khác mà bạn kỳ vọng là có liên quan không?. Ví dụ, nếu bạn đo thái độ đối với nhà trường, thì theo lý thuyết, bạn có thể kỳ vọng một mối quan hệ nhất định giữa thái độ đó với thành tích học tập. Tương tự, khi xây dựng một công cụ đo mức độ học tập của học sinh trong môn địa lý, bạn sẽ kỳ vọng kết quả thu được sẽ có mối liên hệ với các công cụ đo hiện có về học tập môn đó.
Để xác lập được tính hợp lệ theo tiêu chuẩn, bạn cần hai yếu tố: (1) hiểu rõ lý thuyết liên quan đến khái niệm cần đo để biết nên kỳ vọng công cụ sẽ dự đoán hoặc liên hệ với những biến nào; và (2) một thước đo về mối quan hệ giữa các thang đo của chúng ta hoặc giữa các biến đó. Đối với yếu tố thứ hai bạn cần thu thập dữ liệu về các biến liên quan từ cùng một nhóm người tham gia khảo sát, sau đó sử dụng các phương pháp thống kê như hệ số tương quan (xem chương 8) để kiểm tra xem mối quan hệ có thực sự tồn tại không.
Hợp lệ về cấu trúc (Construct validity)
Tính hợp lệ cấu trúc (construct validity) là một vấn đề phức tạp hơn đôi chút, vì nó liên quan đến cấu trúc nội tại của công cụ đo và khái niệm mà công cụ ấy đang đo lường. Một lần nữa, điều này có mối liên hệ chặt chẽ với kiến thức lý thuyết của chúng ta về khái niệm cần đo. Chúng ta có thể giả định rằng khái niệm hoặc thước đo thành tích của mình bao gồm nhiều biểu hiện khác nhau. Ví dụ, một bài kiểm tra năng lực toán học có thể gồm các câu hỏi liên quan đến số học, hình học, không gian v.v. Khi đó, điều chúng ta cần biết là liệu các câu hỏi trong bài kiểm tra có thực sự phản ánh đúng các biểu hiện mà chúng được thiết kế để đo hay không — ví dụ: một câu hỏi được thiết kế để đo năng lực về số học thì phải đo đúng số học, chứ không phải hình học hay không gian.
Một ví dụ cụ thể sẽ giúp làm rõ điều này. Giả sử chúng ta muốn xây dựng một công cụ đo nhận thức bản thân của học sinh (self-concept). Nghiên cứu tổng quan (Literature Research) về khái niệm này cho thấy nhận thức bản thân là một cấu trúc đa chiều (multidimensional construct). Con người có thể có nhận thức bản thân khác nhau trong những lĩnh vực khác nhau. Ví dụ, tôi có thể có nhận thức tích cực về bản thân trong vai trò một nhà nghiên cứu định lượng, nhưng lại có nhận thức tiêu cực về bản thân trong vai trò người nấu ăn. Điều này cũng đúng đối với học sinh tiểu học. Shavelson (1976) đã đưa ra giả thuyết rằng ở trẻ em và thanh thiếu niên, có bảy chiều cạnh chính trong nhận thức bản thân: (1) Nhận thức bản thân trong các môn học ở trường, (2) Nhận thức bản thân trong môn tiếng Anh, (3) Nhận thức bản thân trong môn toán, (4) Nhận thức bản thân trong mối quan hệ với bạn bè, (5) Nhận thức bản thân trong mối quan hệ với cha mẹ, (5) Nhận thức bản thân về ngoại hình, và (7) Nhận thức bản thân về năng lực thể chất. Bảy yếu tố này được tổ chức theo cấu trúc phân cấp trong tâm trí. Nghĩa là ba yếu tố liên quan đến học tập kết hợp với nhau để tạo thành nhận thức bản thân ở khía học thuật (academic self-concept) — ví dụ như câu: “Tôi là học sinh giỏi nói chung”. Bốn yếu tố còn lại kết hợp để tạo thành nhận thức bản thân ở khía cạnh phi học thuật (non-academic self-concept). Hai mặt nhận thức này sau đó tạo nên nhận thức tổng quát về bản thân (global self-concept) — như minh họa trong Figure 4.1.
** Ví dụ 4.1: Xây dựng thang đo tự nhận thức**
Trong một nghiên cứu về mối quan hệ giữa nhận thức bản thân (self-concept) và thành tích học tập, tôi đã quyết định xây dựng một công cụ đo nhận thức bản thân. Tôi bắt đầu bằng việc nghiên cứu tổng quan (Literature) về khái niệm này cũng như mô hình nhận thức bản thân của Shavelson (đã đề cập ở trên) là điểm xuất phát về mặt lý thuyết.Tôi giả thuyết rằng sẽ có bảy thang phụ (subscale) bao gồm: (1) quan hệ với bạn bè, (2) quan hệ với cha mẹ, (3) hình ảnh cơ thể, (4) thể chất, (5) toán học, (6) ngôn ngữ Hà, và (7) nhận thức bản thân chung trong học tập. Các mục hỏi (items) được phát triển cho từng thang phụ, dựa trên các thang đo tiếng Anh đã có. Tôi đã đưa bộ câu hỏi phát triển được cho một số giáo viên tiểu học xem và thử nghiệm công cụ này tại một trường tiểu học địa phương.
<br? Sau đó, tôi tiến hành phân tích nhân tố (factor analysis), và kiểm tra mối tương quan giữa các thang phụ với nhau, với thành tích môn toán và với một thang đo mức độ được bạn bè yêu thích (peer popularity). Công cụ đo được điều chỉnh lại dựa trên góp ý từ giáo viên và kết quả phân tích (Muijs, 1997).
Việc bám sát lý thuyết và tham khảo ý kiến giáo viên nhằm kiểm tra tính hợp lệ nội dung (content validity) của công cụ. Một thiếu sót là không thành lập hội đồng chuyên gia để đánh giá. Phân tích nhân tố được sử dụng để kiểm tra xem mỗi mục hỏi có thực sự đo đúng thang phụ mà nó được thiết kế để đo hay không – đây là cách đánh giá tính hợp lệ cấu trúc (construct validity). Cuối cùng, tính hợp lệ theo tiêu chuẩn (criterion validity) được kiểm tra bằng cách xem công cụ đo có liên hệ gì với thành tích học tập và mức độ được bạn bè yêu thích hay không. Tuy vậy, điều này vẫn đặt dấu hỏi đối với tính hợp lệ theo tiêu chuẩn của mối quan hệ quan hệ với cha mẹ và hình ảnh bản thân.
2. Tính tin cậy
2.1 Tính tin cậy là gì
Yếu tố thứ hai quyết định chất lượng của công cụ đo lường là độ tin cậy (reliability). Chúng ta đều hiểu nghĩa của từ “độ tin cậy” trong đời sống thường ngày. Xe của chúng ta được coi là đáng tin cậy nếu nó không hay bị hỏng. Bạn trai hoặc bạn gái của chúng ta thì bị xem là không đáng tin cậy nếu họ luôn trễ mỗi lần hẹn gặp. Khi đo lường, độ tin cậy là một khái niệm then chốt. Nếu bạn đang ăn kiêng và muốn theo dõi cân nặng để xem chế độ ăn có hiệu quả không, bạn sẽ muốn chắc chắn rằng chiếc cân bạn dùng thực sự đo chính xác cân nặng của bạn, chứ không phải hôm nay tự động cộng thêm vài ký rồi ngày mai lại tự trừ đi một cách ngẫu nhiên. Điều tương tự cũng đúng khi chúng ta đo lường các khái niệm như thành tích học tập hay hành vi của giáo viên trong nghiên cứu giáo dục.
Độ tin cậy mang một ý nghĩa cụ thể khi chúng ta nói đến đo lường trong thống kê. Về cơ bản, bất cứ khi nào chúng ta đo lường một điều gì đó, luôn tồn tại một mức độ sai số nhất định, gọi là sai số đo lường (measurement error). Độ tin cậy đề cập đến mức độ mà điểm số thu được từ phép đo không bị ảnh hưởng bởi sai số đo lường. Mỗi điểm số mà ta thu được từ một bài kiểm tra hoặc một thang đo sẽ bao gồm ba thành phần chính:
Điểm số = Điểm thực + Sai số hệ thống + Sai số ngẫu nhiên
Điểm thực là giá trị mà ta thực sự muốn đo – tức là điểm số không có bất kỳ sai số nào. Sai số hệ thống là loại sai số luôn lặp lại giống nhau giữa các lần đo. Ví dụ, nếu bạn đang đo cân nặng bằng một chiếc cân, và chiếc cân đó được hiệu chỉnh sai để bắt đầu ở mức 2kg thay vì 0kg, thì mỗi lần bạn cân, bạn sẽ nặng hơn thực tế 2kg. Điều này sẽ không gây vấn đề nếu bạn biết sai số đó là gì – bạn chỉ cần trừ 2kg khỏi mỗi kết quả đo. Tuy nhiên, nếu bạn không biết rằng sai số hệ thống tồn tại, thì kết quả đo của bạn sẽ mất tính hợp lệ. Độ tin cậy chủ yếu liên quan đến thành phần sai số thứ hai: sai số không hệ thống, hay còn gọi là sai số ngẫu nhiên – đây là loại sai số biến động giữa các lần đo và không thể dự đoán trước được. Loại sai số này thường không quá nghiêm trọng trong các công cụ đo lường khoa học, nhưng có thể khá đáng kể trong đo lường giáo dục. Hãy lấy ví dụ về một bài kiểm tra thành tích học tập ở trường. Có rất nhiều yếu tố có thể khiến bài kiểm tra của chúng ta kém tin cậy hơn, dẫn đến sai số ngẫu nhiên. Một câu hỏi có thể được diễn đạt theo cách gây nhầm lẫn, hoặc quá khó, dẫn đến việc người làm bài phải đoán mò. Cũng có thể có những yếu tố ngẫu nhiên khác can thiệp: tâm trạng của học sinh khi làm bài, nhiệt độ trong phòng, v.v. Rõ ràng là cả hai nhóm yếu tố đều có thể dẫn đến sự thiếu độ tin cậy, nhưng nhóm đầu tiên là thứ mà chúng ta thực sự có thể kiểm soát được trong quá trình thiết kế công cụ đo lường. Nhóm yếu tố thứ hai có thể được điều chỉnh trong quá trình triển khai công cụ, nhưng đó là một phần thuộc về thiết kế nghiên cứu hơn là thiết kế công cụ đo.
Tính không đáng tin cậy rõ ràng là một vấn đề nghiêm trọng. Nếu chúng ta đo lường một điều gì đó mà không có độ tin cậy, thì kết quả thu được sẽ không thể tin cậy và mọi kết luận rút ra từ đó đều bị sai lệch. Các công cụ đo lường thiếu độ tin cậy cũng sẽ làm giảm mối quan hệ giữa biến đo với các biến khác so với khi chúng đáng tin cậy hơn, từ đó hạn chế khả năng rút ra kết luận nghiên cứu rõ ràng. Độ tin cậy thấp của các công cụ đo lường là một trong những lý do khiến nhiều mối quan hệ được phát hiện trong nghiên cứu giáo dục có độ mạnh thấp
2.2 Các kiểu tin cậy
Độ tin cậy, như được khái niệm hóa trong nghiên cứu định lượng, có hai hình thức chính: đo lặp lại (repeated measurement) và độ nhất quán nội tại (internal consistency).
Đo lặp lại liên quan đến khả năng của chúng ta trong việc đo cùng một yếu tố tại các thời điểm khác nhau. Như đã đề cập ở trên, sẽ không ổn nếu công cụ đo của chúng ta mỗi lần sử dụng lại cho ra kết quả ngẫu nhiên khác nhau. Cùng một công cụ cần phải cho ra cùng một kết quả khi được sử dụng với cùng một người trả lời. Để xác định liệu phép đo của chúng ta có đáng tin cậy theo nghĩa này không, ta có thể đơn giản sử dụng nó với cùng một nhóm người và kiểm tra xem câu trả lời của họ có thay đổi nhiều hay không. Đây được gọi là phương pháp kiểm tra–kiểm tra lại (test–retest). Một câu hỏi nảy sinh khi áp dụng phương pháp này là: nên để bao lâu trước khi thực hiện phép đo lại? Đây là một câu hỏi không dễ trả lời. Nếu thời gian chờ quá ngắn, người tham gia có thể nhớ lại cách họ đã trả lời trước đó và đưa ra câu trả lời giống như vậy – điều này gọi là hiệu ứng lặp lại (carry-over effect) và có thể dẫn đến đánh giá quá mức độ tin cậy của công cụ. Ngược lại, nếu thời gian giữa hai lần đo quá dài, thái độ hoặc quan điểm của người tham gia có thể thực sự thay đổi, hoặc nếu đây là bài kiểm tra năng lực, có thể người tham gia đã học thêm kiến thức (hy vọng vậy!). Điều này có thể khiến chúng ta đánh giá thấp độ tin cậy của công cụ đo. Khoảng thời gian từ một đến hai tuần thường được khuyến nghị là lý tưởng, mặc dù vẫn tồn tại rủi ro xảy ra hiệu ứng lặp lại.
Khi đã tiến hành đo lường lần đầu và đo lường lại, chúng ta cần xem xét mức độ mạnh yếu của mối quan hệ giữa các điểm số thu được ở hai thời điểm. Để làm điều này, ta có thể sử dụng hệ số tương quan (xem Chương 8). Giá trị hệ số này cần càng cao càng tốt. Thông thường, một hệ số tương quan lớn hơn 0.7 được xem là đạt yêu cầu cho mục đích nghiên cứu. Tuy nhiên, nếu ta cần đưa ra một quyết định quan trọng dựa trên kết quả kiểm tra (ví dụ: đỗ hay trượt một kỳ thi), thì độ tin cậy giữa hai lần đo cần phải vượt mức 0.8.
Một dạng khác của phép đo lặp lại là độ tin cậy giữa các đánh giá viên (interrater reliability). Điều này trở nên quan trọng khi chúng ta sử dụng nhiều hơn một người đánh giá để quan sát một tình huống, chẳng hạn như khi có nhiều người cùng quan sát một lớp học. Trong trường hợp đó, ta mong muốn các quan sát viên đưa ra đánh giá giống nhau cho cùng một sự kiện mà họ đã quan sát (ví dụ, nếu chúng ta yêu cầu ba người cùng quan sát một tiết học và chấm điểm một mục như “giáo viên có đặt câu hỏi mở hay không”, thì rõ ràng chúng ta không muốn ba mức đánh giá khác nhau!). Việc điều này có xảy ra hay không có thể được kiểm tra một cách đơn giản bằng cách thực hiện thực tế và so sánh phản hồi từ tất cả những người đánh giá.
Thành phần thứ hai của độ tin cậy là tính nhất quán nội tại (internal consistency reliability). Khía cạnh thứ hai này chỉ áp dụng đối với các công cụ đo lường có nhiều hơn một biến quan sát, vì nó liên quan đến việc các biến quan sát trong một thang đo có đồng nhất với nhau hay không, hay nói cách khác là chúng có đo cùng một khái niệm tiềm ẩn hay không. Chẳng hạn, khi xây dựng thang đo nhận thức bản thân (self-concept), ta có thể trước hết kiểm tra xem bảy thang phụ mà ta giả định có thực sự tồn tại và được đo lường bởi những biến quan sát mà ta kỳ vọng hay không (đây là kiểm tra tính tin cậy về cấu trúc - construct validity). Sau đó, với từng thang phụ, ta sẽ kiểm tra xem các biến quan sát có đo lường một cách ổn định và đồng nhất nội tại cho từng thang hay không.
Có hai cách chính để tính độ tin cậy nội tại: độ tin cậy chia đôi (split-half reliability) và hệ số alpha (coefficient alpha). Độ tin cậy chia đôi hoạt động như sau: giả sử chúng ta có một thang đo thái độ đối với việc giảng dạy gồm 10 mục (hay câu hỏi). Trước tiên, chúng ta chia ngẫu nhiên bài kiểm tra thành hai phần (ví dụ: các mục chẵn và lẻ). Sau đó, chúng ta tính điểm của người tham gia phản hồi đối với từng “nửa bài kiểm tra”. Tiếp theo, ta kiểm tra xem hai điểm số đó có tương quan với nhau không. Nếu cả hai phần đều đo lường cùng một khái niệm, ta kỳ vọng chúng có mối tương quan mạnh, với hệ số tương quan lớn hơn 0.8. Hệ số alpha là một cách đo lường khác của độ tin cậy nội tại. Hệ số này được kỳ vọng phải lớn hơn 0.7 để có thể khẳng định bài kiểm tra có độ tin cậy nội tại.
Khi chúng ta đo độ nhất quán nội tại hoặc độ tin cậy kiểm tra–kiểm tra lại, có thể phát hiện rằng thang đo của chúng ta chưa đủ đáng tin cậy. Khi đó, ta cần xem liệu có thể xác định mục nào cụ thể là “có vấn đề” hay không. Khi xem xét độ nhất quán nội tại, chúng ta có thể đánh giá mức độ mà từng mục riêng lẻ tương quan với điểm số toàn thang đo. Những mục có tương quan yếu với tổng thể bài kiểm tra sẽ làm giảm độ tin cậy và cần được loại bỏ khỏi công cụ đo. Khi xem xét độ tin cậy kiểm tra–kiểm tra lại, chúng ta có thể xác định các mục mà người trả lời đưa ra điểm số rất khác nhau giữa hai lần đo. Chính các mục này đang làm giảm độ tin cậy của thang đo.
Chúng ta có thể làm gì để tăng độ tin cậy cho các công cụ đo lường của mình? Phần lớn điều này liên quan đến việc đơn giản là đảm bảo chất lượng của các câu hỏi mà chúng ta đưa ra là rõ ràng, không mơ hồ (xem Chương 3). Những câu hỏi rõ ràng, không gây hiểu nhầm sẽ có khả năng đem lại độ tin cậy cao hơn – điều này cũng đúng đối với các mục trong thang đo đánh giá dành cho người quan sát.
Một cách khác để làm cho công cụ đo lường trở nên đáng tin cậy hơn là sử dụng nhiều hơn một mục hỏi hay câu hỏi (còn gọi là item). Khi chúng ta dùng nhiều câu hỏi, các sai sót cá nhân mà người trả lời có thể mắc phải khi trả lời một câu đơn lẻ (ví dụ: đọc nhầm câu hỏi) sẽ có xu hướng triệt tiêu lẫn nhau. Đó là lý do vì sao chúng ta xây dựng các thang đo (scale). Nói chung, càng nhiều câu hỏi thì độ tin cậy càng cao. Tuy nhiên, chúng ta không nên lạm dụng điều này. Người tham gia khảo sát có thể cảm thấy nhàm chán nếu liên tục bị hỏi những câu hỏi trông giống nhau, và vì thế họ có thể trả lời một cách thiếu tập trung hoặc qua loa. Điều này sẽ làm tăng nguy cơ sai số đo lường thay vì giảm thiểu nó. Ngoài ra, như đã thấy ở chương trước, chúng ta nên giữ cho các công cụ khảo sát càng ngắn càng tốt; nếu thang đo có quá nhiều mục, ta sẽ không thể hỏi được nhiều khía cạnh khác nhau. Với hầu hết các thang đo dạng thái độ, từ khoảng 4 đến 10 mục là đủ để đạt được độ tin cậy cần thiết. Còn với các bài kiểm tra thành tích, ta có thể cần nhiều mục hơn do tính chất hệ trọng của những bài kiểm tra này.
Cách cuối cùng để làm cho công cụ đo lường trở nên đáng tin cậy hơn là đo lường một khái niệm được xác định một cách rõ ràng, thậm chí được là được định nghĩa rất hẹp. Tuy nhiên, điều này đôi khi có thể xung đột với tính hợp lệ (liệu chúng ta có đang đo lường khái niệm một cách quá hẹp?). Rõ ràng, mục tiêu là tạo ra các phép đo vừa đáng tin cậy vừa có giá trị. Tuy nhiên, hãy nhớ rằng sẽ chẳng có ý nghĩa gì khi xây dựng một công cụ có độ tin cậy cao nhưng lại đang đo lường một thứ mà chúng ta không thực sự muốn đo.
3. Khả năng khái quát hóa
Như đã đề cập trong Chương 3, chúng ta thường phải chọn một mẫu để nghiên cứu từ quần thể (population) thay vì đo lường toàn bộ tổng thể. Sau đó, chúng ta tiến hành nghiên cứu với mẫu này. Về mặt nguyên tắc, các kết quả tìm được chỉ phản ánh đúng cho chính mẫu đó. Tuy nhiên, thông thường, chúng ta muốn khái quát hóa (generalise) các phát hiện của mình cho cả quần thể. Ví dụ, khi tôi nghiên cứu mối quan hệ giữa hành vi của giáo viên và thành tích học tập của học sinh, tôi không chỉ muốn nói về ảnh hưởng của 100 giáo viên trong mẫu khảo sát đối với học sinh của họ. Tôi thực sự muốn rút ra điều gì đó về hành vi của giáo viên nói chung – tức là khái quát hóa cho toàn bộ quần thể giáo viên.
3.1 Xác suất và có ý nghĩa thống kê
Tuy nhiên, việc khái quát hóa cho toàn bộ quần thể không phải là điều mà chúng ta có thể tự tiện thực hiện. Như đã đề cập trong Chương 3, các mẫu khảo sát thường không hoàn toàn đại diện cho toàn bộ quần thể. Kết quả thu được từ mẫu có thể chỉ là sự tình cờ ngẫu nhiên xảy ra trong chính mẫu đó, chứ không phản ánh thực tế trong toàn bộ quần thể.
Chẳng hạn, chúng ta có thể phát hiện mối quan hệ giữa việc giáo viên sử dụng hệ thống khen thưởng và thành tích học tập của học sinh. Nhưng nếu ta chỉ quan sát 10 giáo viên, thì có thể chỉ vì một giáo viên đặc biệt hiệu quả trong mẫu tình cờ lại là người áp dụng hệ thống khen thưởng trong tiết học của mình. Vì vậy, mỗi khi chúng ta tìm thấy một mối quan hệ trong mẫu khảo sát, mối quan hệ đó có thể có hoặc không tồn tại trong toàn bộ quần thể. Điều chúng ta mong muốn là có thể xác định, với một xác suất nhất định, khả năng mà mối quan hệ được tìm thấy trong mẫu thực chất không tồn tại trong quần thể.
Bạn còn nhớ, ở Chương 2, chúng ta đã đề cập đến vấn đề giả thuyết nghiên cứu. Khi đó, ta nói rằng có hai giả thuyết có thể xảy ra: giả thuyết không (null hypothesis) và giả thuyết thay thế (alternative hypothesis).
Trong trường hợp này, khi nghiên cứu mối quan hệ giữa việc sử dụng hệ thống khen thưởng trong lớp học và kết quả học tập của học sinh, giả thuyết có thể được phát biểu như sau:
Giả thuyết không (H₀): Không có mối quan hệ giữa việc sử dụng hệ thống khen thưởng và kết quả học tập của học sinh trong quần thể.
Giả thuyết thay thế (H₁): Có tồn tại mối quan hệ giữa việc sử dụng hệ thống khen thưởng và kết quả học tập của học sinh trong quần thể.
Trong nghiên cứu, chúng ta quan sát mẫu gồm 10 giáo viên và tìm thấy một mối quan hệ giữa hai biến. Nếu dựa trên kết quả đó, chúng ta chấp nhận rằng mối quan hệ này cũng tồn tại trong quần thể, thì có hai khả năng xảy ra:
Mối quan hệ thực sự tồn tại đối với quần thể → chúng ta đã đúng khi bác bỏ giả thuyết không.
Không có mối quan hệ đối với quần thể → chúng ta đã sai khi bác bỏ giả thuyết không, và đây được gọi là lỗi loại I (type I error).
Ngược lại, nếu dựa trên việc phát hiện mối quan hệ trong mẫu (nhưng mối quan hệ yếu chẳng hạn), chúng ta quyết định rằng không có mối quan hệ trong quần thể, thì hai khả năng sau có thể xảy ra:
Thật sự không có mối quan hệ đối với quần thể → chúng ta đã đúng khi chấp nhận giả thuyết không.
Thực tế có mối quan hệ đối với quần thể → chúng ta đã sai khi chấp nhận giả thuyết không, và đây được gọi là lỗi loại II (type II error).
Điều mà chúng ta cố gắng là giảm thiểu khả năng mắc lỗi loại I hoặc lỗi loại II. Một cách để làm điều đó là tăng kích thước mẫu khảo sát. Chúng ta đã thấy rằng các sai số có thể xảy ra trong những mẫu nhỏ do ảnh hưởng từ một số ít trường hợp ngoại lệ (được gọi là outliers). Càng nhiều quan sát trong mẫu, thì ảnh hưởng của những trường hợp bất thường này càng nhỏ đi. Vì vậy, mẫu càng lớn sẽ càng làm giảm xác suất mắc lỗi loại I và lỗi loại II.
Giả sử kích thước mẫu là như nhau, thì khả năng mắc lỗi loại I và lỗi loại II có mối quan hệ nghịch đảo: xác suất mắc lỗi loại I càng cao thì xác suất mắc lỗi loại II càng thấp. Giữa hai loại lỗi này tồn tại một sự đánh đổi.
Vậy chúng ta cần làm gì? Trong hai loại lỗi đó, loại nào quan trọng hơn – và loại nào chúng ta cần giảm thiểu nhất? Hãy tưởng tượng một tình huống: chúng ta vừa phát triển một phương pháp giảng dạy mới và muốn kiểm tra xem liệu phương pháp này có giúp cải thiện kết quả học tập của học sinh hay không. Nếu chúng ta thiết kế một nghiên cứu bán thực nghiệm (quasi-experimental) trên một mẫu ngẫu nhiên các trường để kiểm tra điều đó, giả thuyết không sẽ là: phương pháp giảng dạy mới không cải thiện kết quả học tập. Giả thuyết thay thế sẽ là: phương pháp giảng dạy mới có cải thiện kết quả học tập. Nếu, dựa trên kết quả nghiên cứu, chúng ta bác bỏ giả thuyết không, thì hai tình huống có thể xảy ra:
Giả thuyết thay thế là đúng đối với quần thể → chúng ta không mắc lỗi.
Giả thuyết không là đúng đối với quần thể → chúng ta mắc lỗi loại I.
Ngược lại, nếu dựa trên kết quả mẫu, chúng ta chấp nhận giả thuyết không, thì hai khả năng cũng có thể xảy ra:
Giả thuyết không là đúng đối với quần thể → chúng ta không mắc lỗi.
Giả thuyết thay thế là đúng đối với quần thể → chúng ta mắc lỗi loại II.
Thế thì hậu quả của hai kiểu lỗi này là gì? Lỗi loại II trong trường hợp này đồng nghĩa với việc ta không áp dụng một phương pháp giảng dạy có tiềm năng, khiến học sinh không có cơ hội được hưởng lợi từ nó. Lỗi loại I có nghĩa là ta thay đổi phương pháp giảng dạy, dẫn đến chi phí và nỗ lực lớn từ phía giáo viên và cả hệ thống giáo dục, gây ra xáo trộn cho học sinh, nhưng lại không mang lại hiệu quả thực sự.
Vì lý do đó, lỗi loại I thường được xem là nghiêm trọng hơn, và do đó, điều mà chúng ta muốn làm là giảm thiểu khả năng mắc lỗi loại I. Một lý do khác là: giả thuyết thay thế thường là điều mà các nhà nghiên cứu mong muốn là đúng – điều này dễ khiến ta kết luận thiên lệch rằng có tồn tại mối quan hệ. Để ngăn chặn sự “mơ tưởng chủ quan” này (và do đó) làm sai lệch kết quả nghiên cứu khoa học, một cách tiếp cận thận trọng là cần thiết, trong đó trọng tâm là bác bỏ giả thuyết không – tức là giả thuyết mà ta không mong muốn là đúng. Tất nhiên, việc giảm thiểu lỗi loại II cũng rất quan trọng, và vì thế, tăng kích thước mẫu luôn là điều được khuyến nghị.
Điều này có nghĩa là bất cứ khi nào có thể, chúng ta sẽ cố gắng giảm thiểu khả năng mắc lỗi loại I. Để làm được điều đó, chúng ta cần có khả năng tính toán xác suất xảy ra lỗi loại I là bao nhiêu. Xác suất đó được thể hiện qua mức ý nghĩa (level of significance, còn được gọi là hệ số alpha (α). Xác suất mắc lỗi loại II được gọi là beta (β) hay còn gọi là giá trị p (p-value) – viết tắt từ “probability”.
Trong phần còn lại của cuốn sách này, chúng ta sẽ thường xuyên thực hiện việc tính toán giá trị p (p-value) (hoặc alpha, hoặc mức ý nghĩa), thông qua các phép kiểm định thống kê. Trong mọi trường hợp, các giá trị này đều biểu thị xác suất mắc lỗi loại I, điều mà ta luôn muốn là giá trị này càng thấp càng tốt. Mức ý nghĩa (significance level) có thể dao động trong khoảng từ 0 đến 1. Mức ý nghĩa càng nhỏ thì xác suất mắc lỗi loại I càng thấp.
Có một số ngưỡng giá trị chuẩn thường được sử dụng làm điểm cắt (cut-off) cho mức ý nghĩa. Trong nghiên cứu khoa học thì ngưỡng phổ biến nhất là 0.05.
Khi chúng ta nói rằng mức ý nghĩa nhỏ hơn 0.05, điều đó có nghĩa là: xác suất để tìm thấy giá trị như trong mẫu – nếu không có mối quan hệ thực sự nào trong quần thể – là dưới 5%. Trong trường hợp như vậy, ta thường nói rằng kết quả có ý nghĩa thống kê (statistically significant).
Từ “significant” trong ngữ cảnh thống kê khác với nghĩa thông thường trong đời sống hằng ngày: nó không có nghĩa là “quan trọng”, mà chỉ có nghĩa là khó xảy ra do ngẫu nhiên.
Trong một số trường hợp, nếu kích thước mẫu lớn, chúng ta sẽ sử dụng các ngưỡng nghiêm ngặt hơn như 0.01 hoặc 0.001. Với mức 0.01, xác suất tìm thấy mối quan hệ giữa hai biến trong mẫu (ví dụ: sử dụng hệ thống khen thưởng và thành tích học tập) khi không có mối quan hệ nào trong quần thể là dưới 1%.
Tuy nhiên, cần nhấn mạnh rằng các ngưỡng cắt này là tùy ý (arbitrary), và vì thế, chúng ta cần cẩn trọng, không nên tuyệt đối hóa chúng – dù thực tế thì điều này lại xảy ra khá thường xuyên trong nghiên cứu định lượng.
Có hai yếu tố chính quyết định mức ý nghĩa (p-value):
Mức độ hoặc khác biệt của mối quan hệ được tìm thấy trong mẫu.
Kích thước mẫu.
Yếu tố thứ hai (kích thước mẫu) rất quan trọng vì nó có nghĩa là: mức ý nghĩa (p) chỉ cho ta biết xác suất để mối quan hệ xuất hiện trong mẫu nếu không có mối quan hệ thật trong quần thể. Nó không cho biết mức độ mạnh hay yếu của mối quan hệ. Một p-value nhỏ hơn không đồng nghĩa với việc mối quan hệ mạnh hơn, vì giá trị nhỏ đó có thể chỉ đơn giản là do kích thước mẫu lớn hơn mà thôi.
3.2 Một cách nhìn khác: ảnh hưởng của quy mô mẫu
Gần đây, ngày càng có nhiều chỉ trích đối với việc sử dụng các kiểm định ý nghĩa thống kê. Những chỉ trích này tập trung vào một số vấn đề trong thực tiễn áp dụng kiểm định này.
Một trong số đó là việc sử dụng các ngưỡng cắt tùy ý, chẳng hạn như p < 0.05. Thật vậy, có thể lập luận rằng trong nhiều trường hợp, sự khác biệt giữa mức ý nghĩa 0.051 (bị coi là không có ý nghĩa thống kê) và 0.049 (được coi là có ý nghĩa thống kê) thực chất chỉ phụ thuộc vào một hoặc hai người trả lời. Điều này buộc chúng ta phải hết sức thận trọng khi diễn giải kết quả của những phân tích như vậy.
Một chỉ trích khác bắt nguồn từ thực tế rằng giả thuyết không (null hypothesis), như đã nêu ở trên, gần như luôn được hiểu là không có sự khác biệt tuyệt đối, hoặc không có mối quan hệ nào trong quần thể. Điều này gặp phải hai vấn đề.
Thứ nhất, rất hiếm khi không tồn tại các mối quan hệ trong thực tế. Thông thường, luôn tồn tại một mức độ nhất định của mối liên hệ hoặc sự khác biệt, và điều này được gọi là “yếu tố nhiễu phổ quát” (universal crud factor). Do đó, nếu kích thước mẫu đủ lớn, thì hầu hết các mối quan hệ hoặc sự khác biệt giữa các biến mà ta nghiên cứu sẽ trở nên có ý nghĩa thống kê. Tuy nhiên, chúng có thể nhỏ đến mức hoàn toàn vô nghĩa trong thực tế. Ví dụ, nếu ta phát triển một phương pháp giảng dạy mới và phương pháp này chỉ cải thiện điểm số của học sinh thêm 0,01%, thì ta có thể nghi ngờ rằng liệu việc theo đuổi nó có thực sự đáng giá hay không. Tuy nhiên, nếu ta khảo sát một mẫu đủ lớn (ví dụ: 100.000 học sinh), kết quả này có thể trở nên có ý nghĩa thống kê, và một số nhà nghiên cứu có thể vội vàng kết luận rằng phương pháp đó quan trọng và đáng được triển khai.
Vấn đề thứ hai là: mặc dù chúng ta gần như luôn kiểm định giả thuyết không rằng không có sự khác biệt tuyệt đối, nhưng trong nhiều trường hợp, đây lại là một giả định vô lý. Chẳng hạn, ta muốn nghiên cứu kết quả đọc hiểu của học sinh có nhu cầu đặc biệt so với học sinh không có nhu cầu đặc biệt. Tất cả các nghiên cứu trước đây đều cho thấy rằng nhóm học sinh có nhu cầu đặc biệt sẽ có kết quả thấp hơn. Vậy thì tại sao chúng ta lại cần kiểm định điều đó một lần nữa? Trong trường hợp này, điều mà ta thực sự muốn biết là liệu sự khác biệt có vượt qua một ngưỡng nhất định hay không. Đây không phải là vấn đề nằm ở bản thân giả thuyết, vì như đã thấy trong Chương 2, chúng ta hoàn toàn có thể xây dựng giả thuyết xoay quanh một giá trị cụ thể, chứ không chỉ đơn thuần là “có” hay “không” mối quan hệ. Tuy nhiên, hầu hết các kiểm định thống kê hiện có trong các phần mềm thống kê (chẳng hạn như IBM SPSS Statistics) chỉ kiểm tra giả thuyết không với sự khác biệt bằng 0.
Một số giải pháp đã được đề xuất để khắc phục những vấn đề này. Một số nhà nghiên cứu thậm chí cho rằng không nên sử dụng bất kỳ kiểm định nào cả. Họ cho rằng việc sử dụng kiểm định ý nghĩa đang kìm hãm sự phát triển của khoa học xã hội, và nên được thay thế bằng khoảng tin cậy (confidence intervals) và hiệu ứng kích thước mẫu (effect sizes). Tuy nhiên, quan điểm loại bỏ hoàn toàn kiểm định ý nghĩa vẫn chỉ là ý kiến thiểu số. Phần lớn các nhà nghiên cứu vẫn tiếp tục sử dụng các kiểm định ý nghĩa.
Lập luận phản biện đối với quan điểm loại bỏ là: chúng ta vẫn cần một phương pháp nào đó để quyết định liệu các tham số trong mẫu — vốn luôn chứa sai số đo lường — có đủ khác biệt đến mức có thể cho rằng chúng phản ánh sự khác biệt thực sự trong quần thể hay không. Hiện nay, hầu hết các nhà nghiên cứu đều thừa nhận rằng kiểm định ý nghĩa có nhiều vấn đề đi kèm và không nên là công cụ đo lường duy nhất được sử dụng.
Có hai cách tiếp cận bổ sung chính được đề xuất:
1. Thay thế kiểm định ý nghĩa bằng khoảng tin cậy (confidence intervals). Khoảng tin cậy cung cấp cho chúng ta một giới hạn trên và dưới, trong đó giá trị thực (ví dụ: mối quan hệ, sự khác biệt, trung bình, v.v.) có thể dao động, vì chúng ta không bao giờ chắc chắn tuyệt đối giá trị trong quần thể là bao nhiêu. Chúng ta có thể phát biểu rằng với một xác suất định trước (ví dụ: 95%), thì dựa trên giá trị mà ta tìm thấy trong mẫu, giá trị thực trong quần thể có khả năng nằm trong một khoảng từ giá trị tối thiểu đến tối đa. Ví dụ: nếu ta tìm được giá trị trung bình là 76, và khoảng tin cậy 95% nằm trong khoảng từ 72,5 đến 80,5, thì điều đó có nghĩa là: dù trong mẫu trung bình là 76, nhưng trong quần thể, giá trị này có thể nằm trong khoảng từ 72,5 đến 80,5 với xác suất 95%. Nếu ta sử dụng một mức xác suất nghiêm ngặt hơn (ví dụ: 99%), thì khoảng tin cậy có thể rộng hơn, ví dụ từ 65 đến 86. Ngoài ra, nếu ta có kích thước mẫu lớn hơn, thì khoảng tin cậy sẽ hẹp hơn, tức là ước lượng chính xác hơn. Do đó, khoảng tin cậy phản ánh mức độ bất định trong ước lượng giá trị thực: khoảng càng hẹp thì ước lượng càng chính xác. Tuy nhiên, hiện tại phần lớn các phần mềm thống kê không tự động đưa khoảng tin cậy vào kết quả đầu ra của các thủ tục phân tích, nên việc sử dụng khoảng tin cậy vẫn chưa phổ biến.
Một cách tiếp cận ngày càng được sử dụng nhiều hơn là chỉ số hiệu ứng kích thước mẫu (effect size). Tôi đã đề cập ở trên rằng mức ý nghĩa (significance level) không cho ta biết mức độ mạnh yếu của mối quan hệ, tác động, hay sự khác biệt, vì mức ý nghĩa phần lớn bị chi phối bởi kích thước mẫu. Cách tiếp cận hiệu ứng kích thước mẫu giải quyết vấn đề này bằng cách cung cấp một thước đo về độ mạnh của sự khác biệt hoặc mối quan hệ, và có thể được so sánh với kết quả từ các nghiên cứu khác bất kể kích thước mẫu là bao nhiêu. Nhờ vậy, chúng ta có thể xác định, ví dụ, liệu chiến lược giảng dạy mới của chúng ta có tạo ra ảnh hưởng lớn hơn lên kết quả học tập của học sinh so với một phương pháp khác hay không. Rõ ràng, việc sử dụng hiệu ứng kích thước mẫu cung cấp thông tin rất quan trọng trong phân tích thống kê, và không có gì ngạc nhiên khi ngày càng có nhiều tạp chí khoa học yêu cầu tác giả báo cáo những chỉ số này. Tất nhiên, một điều quan trọng là chúng ta cần nhìn nhận các chỉ số ý nghĩa thống kê một cách thận trọng, và phân tích chúng cùng với kích thước mẫu và các chỉ số khác, thay vì tuyệt đối hóa và thần thánh hóa các ngưỡng cắt p-value. Trong cuốn sách này, tôi sẽ trình bày cả các chỉ số ý nghĩa thống kê và hiệu ứng kích thước mẫu bất cứ khi nào thực hiện kiểm định. Lý do là: một phần vì tôi tin rằng cả hai loại chỉ số đều mang lại thông tin hữu ích, và một phần khác mang tính thực tiễn hơn: đây là những chỉ số mà bạn rất có thể sẽ được yêu cầu cung cấp khi thực hiện phân tích thống kê.
Những ngộ nhận phổ biến
1. Nếu tôi có một mức ý nghĩa rất nhỏ, điều đó có nghĩa là kết quả của tôi quan trọng, đúng không?
Không. Mức ý nghĩa được quyết định bởi cả mức độ (mạnh hay yếu) của mối quan hệ (hoặc sự khác biệt) và kích thước mẫu. Một kết quả rất có ý nghĩa thống kê có thể chỉ đơn giản là do bạn có một mẫu lớn.
2. Nhưng nếu tôi có mẫu với kích thướng lớn, thì tôi có thể nói rằng phát hiện của mình là quan trọng, đúng không?
Không. Cả mức ý nghĩa lẫn hiệu ứng kích thước mẫu đều không cho biết phát hiện của bạn có quan trọng hay không. Điều này sẽ được quyết định bởi giá trị thực tiễn của nó, hoặc giá trị đối với việc phát triển lý thuyết và nghiên cứu. Hiệu ứng kích thước mẫu chỉ cho ta biết rằng mối quan hệ hoặc sự khác biệt tìm được là mạnh hay yếu.
3. Chẳng phải độ tin cậy nhất quán nội tại và độ hợp lệ cấu trúc là cùng một thứ sao?
Không hẳn, mặc dù chúng có liên quan. Tính hợp lệ cấu trúc (construct validity) áp dụng trong các trường hợp nghiên cứu có nhiều thang đo phụ, và nó giúp xác định cấu trúc giả thuyết của chúng ta có hoạt động như mong đợi không. Độ tin cậy nhất quán nội tại (internal consistency reliability) kiểm tra từng thang đo hoặc thang phụ riêng biệt, và xác định xem các câu hỏi tạo nên thang đó có đang đo cùng một khái niệm hay không.
4. Nếu kết quả của chúng tôi có ý nghĩa thống kê, điều đó có nghĩa là nó tồn tại trong quần thể, đúng không?
Không nhất thiết đúng. Mức ý nghĩa chỉ cho biết rằng một kết quả (mối quan hệ hoặc sự khác biệt) với kích thước như vậy trong mẫu có xác suất thấp xảy ra nếu không có mối quan hệ trong quần thể. Tuy nhiên, vẫn tồn tại xác suất (ví dụ: 5% nếu ta dùng mức ý nghĩa 0.05) rằng kết quả chỉ là sự tình cờ trong mẫu. Và xác suất này chỉ có giá trị khi bạn đã sử dụng các phương pháp lấy mẫu ngẫu nhiên (probabilistic sampling) như lấy mẫu ngẫu nhiên đơn.
4. Tóm tắt chương
Trong chương này, chúng ta đã xem xét một số khái niệm then chốt trong phương pháp định lượng: tính hợp lệ (validity), độ tin cậy (reliability) và tính khái quát hóa (generalisability).
Tính hợp lệ liên quan đến việc liệu chúng ta có đang đo lường đúng thứ mà mình muốn đo hay không, và đây có lẽ là khía cạnh quan trọng nhất trong đo lường. Có ba loại tính hợp lệ chính:
Tính hợp lệ nội dung (content validity): đề cập đến việc nội dung của các biến quan sát được (ví dụ: các câu hỏi trong bài kiểm tra hoặc bảng hỏi) có phù hợp để đo khái niệm tiềm ẩn (chẳng hạn như lòng tự trọng, thành tích, thái độ…) mà ta đang cố gắng đo hay không. Tính hợp lệ nội dung rõ ràng có liên quan đến kiến thức lý thuyết của bạn về lĩnh vực nghiên cứu, nhưng có thể được nâng cao bằng cách hỏi ý kiến chuyên gia và người trả lời về nội dung công cụ đo.
Công cụ đo của bạn cũng có thể được kỳ vọng về mặt lý thuyết là dự đoán hoặc có liên quan đến các biến khác. Nếu bạn thu thập thông tin về các biến này, bạn có thể kiểm tra điều đó. Đây gọi là tính hợp lệ tiêu chuẩn (criterion validity).
Cuối cùng, bạn có thể giả thuyết rằng công cụ đo có nhiều yếu tố cấu thành. Mức độ phù hợp giữa dữ liệu thực tế và cấu trúc lý thuyết được gọi là tính hợp lệ cấu trúc (construct validity).
Độ tin cậy (reliability) đề cập đến mức độ mà các điểm số từ công cụ đo không bị sai số đo lường ảnh hưởng. Có hai loại độ tin cậy chính:
Đo lặp lại (repeated measures hoặc test–retest reliability): kiểm tra xem công cụ đo có cho ra kết quả tương tự nếu được sử dụng lại với cùng một nhóm người sau một khoảng thời gian ngắn hay không.
Tính nhất quán nội tại (internal consistency): xem xét các câu hỏi trong thang đo có đang đo cùng một khái niệm hay không.
Trong nghiên cứu định lượng, chúng ta thường muốn khái quát hóa từ mẫu sang quần thể. Khi phát hiện một mối quan hệ hay sự khác biệt nào đó trong mẫu, ta muốn biết liệu đó là do mối quan hệ thực sự tồn tại trong quần thể, hay chỉ là ngẫu nhiên trong mẫu. Chúng ta không bao giờ có thể chắc chắn 100%, nhưng có thể tính xác suất rằng mối quan hệ trong mẫu sẽ xảy ra nếu không có mối quan hệ trong quần thể. Khi xác suất này nhỏ hơn 0.05 (5%), ta nói rằng kết quả có ý nghĩa thống kê (statistically significant).
Tuy nhiên, khái niệm kiểm định ý nghĩa ngày càng bị chỉ trích trong thời gian gần đây với ít nhất ba lí do: (1) Các ngưỡng cắt như 0.05 bị cho là tùy ý, (2) Việc dựa vào giả thuyết không có khác biệt trong quần thể bị xem là phi thực tế, và (3) Sự thiếu thông tin về độ mạnh/yếu của tác động cũng bị đánh giá là không hữu ích. Vì những lý do đó, nhiều nhà nghiên cứu đã đề xuất thay thế hoặc bổ sung kiểm định ý nghĩa bằng khoảng tin cậy và chỉ số hiệu ứng kích thước mẫu.
5. Bài tập
Bạn có thể làm gì để tăng tính hợp lệ cho công cụ đo lường của mình?
Bạn nghĩ gì về cuộc tranh luận giữa hai phái hiệu ứng kích thước mẫu và kiểm định ý nghĩa? Liệu chúng ta nên tiếp tục sử dụng mức ý nghĩa thống kê hay thay thế bằng hiệu ứng kích thước mẫu và khoảng tin cậy?
Làm thế nào để bạn tính toán xem kiểm định thống kê của mình có đáng tin cậy hay không?
Bạn có cho rằng một kiểm định thống kê có độ tin cậy cao hơn thì đương nhiên cũng hợp lệ hơn không?
Bạn có thể mắc những loại lỗi nào khi chấp nhận giả thuyết thay thế?
Bạn có thể làm gì để tăng độ tin cậy cho công cụ đo lường của mình?
6. Tài liệu tham khảo thêm
Một tài liệu tổng quan xuất sắc về độ tin cậy và tính hợp lệ trong thiết kế thang đo — dù ở mức khá nâng cao là DeVellis, R., & Thorpe, T. (2021). Scale Development: Theory and Applications (ấn bản lần thứ 5). Sage.
Hầu hết các giáo trình thống kê đều có phần tổng quan về khái niệm kiểm định ý nghĩa (significance testing). Các lập luận từ cả hai phía trong cuộc tranh luận về kiểm định ý nghĩa được trình bày trong Harlow, L. L., Mulaik, S. A., & Steiger, J. (1997). What if There Were No Significance Tests? Lawrence Erlbaum.
Đây là một cuốn sách xuất sắc, nhưng mang tính kỹ thuật cao, đòi hỏi người đọc có nền tảng vững. Nếu bạn muốn tìm hiểu sâu hơn về kích thước mẫu và cách tính toán số lượng cần thiết cho nghiên cứu, có thể tham khảo Chmura Kramer, H., & Blassey, C. (2015). How Many Subjects? Statistical Power Analysis in Research. Sage.
Tài liệu tham khảo
Muijs, R. D. (1997). Self, school and media. Leuven, Belgium: Catholic University of Leuven, Department of Communication Science.
Shavelson, R. J. (1976). Self-concept: Validation of construct interpretations. Review of Educational Research, 46(3), 407–441