Chương 2: Nghiên cứu Thực nghiệm và Bán Thực nghiệm

R Data Science Series

1. Các loại nghiên cứu định lượng

Khi chúng ta đã quyết định thực hiện một nghiên cứu định lượng, chúng ta cần phải làm thiết kế nghiên cứu. Có hai loại thiết kế nghiên cứu định lượng chính: thiết kế thực nghiệm (experimental)thiết kế phi thực nghiệm (non-experimental). Thiết kế thực nghiệm đôi khi được gọi là “phương pháp khoa học” vì chúng phổ biến trong nghiên cứu khoa học — nơi mà phương phát này xuất hiện. Nghiên cứu phi thực nghiệm đôi khi (một cách sai lầm, như chúng ta sẽ thấy trong chương tiếp theo) bị đồng nhất với nghiên cứu khảo sát và rất phổ biến trong các ngành khoa học xã hội.

Khi nghe đến cụm từ “thiết kế thực nghiệm”, hầu hết chúng ta sẽ nhớ lại những thí nghiệm trong các môn học khoa học ở trường phổ thông. Nghiên cứu thực nghiệm trong khoa học xã hội tuân theo mô hình cơ bản giống như các thí nghiệm đó trong khoa học tự nhiên.

Cơ sở của phương pháp thực nghiệm là thí nghiệm, được định nghĩa là một phép thử được thực hiện trong điều kiện có kiểm soát nhằm chứng minh một chân lý đã biết hoặc kiểm tra tính đúng đắn của một giả thuyết. Yếu tố then chốt trong định nghĩa này là kiểm soát (control), và chính điều này tạo ra sự khác biệt giữa nghiên cứu thực nghiệm và nghiên cứu định lượng phi thực nghiệm.

Khi tiến hành một thí nghiệm, chúng ta muốn kiểm soát môi trường càng nhiều càng tốt và chỉ tập trung vào những biến mà ta muốn nghiên cứu. Đó là lý do vì sao các thí nghiệm truyền thống thường được tiến hành trong phòng thí nghiệm – một môi trường mà mọi yếu tố gây nhiễu bên ngoài có thể được loại bỏ. Trong nghiên cứu phi thực nghiệm, chúng ta không thể kiểm soát các ảnh hưởng từ bên ngoài như vậy. Mức độ kiểm soát trong nghiên cứu thực nghiệm còn được tăng cường bởi thực tế rằng nhà nghiên cứu chủ động điều chỉnh biến dự đoán, trong khi ở nghiên cứu phi thực nghiệm, chúng ta phải sử dụng biến “như nó vốn có” trong thực tiễn.

Ví dụ 2.1: Những kiểm tra giúp tăng cường trí nhớ

Trong một thí nghiệm, Roediger và Karpicke (2006) đã nghiên cứu tác động của việc làm bài kiểm tra đối với khả năng ghi nhớ. Trong hai thí nghiệm, các sinh viên được yêu cầu học các đoạn văn bản viết, sau đó hoặc làm các bài kiểm tra bổ sung, hoặc ôn lại tài liệu với số lần tương đương với nhóm làm bài kiểm tra. Sau đó, các sinh viên thực hiện bài kiểm tra ghi nhớ sau 5 phút, 2 ngày hoặc 1 tuần. Tổng cộng 100 sinh viên tham gia và được phân ngẫu nhiên vào nhóm thực nghiệm (experimental group) hoặc nhóm đối chứng (control group). Tất cả sinh viên đều học một văn bản lần đầu tiên; sau đó, nhóm đối chứng được yêu cầu ôn lại một trong các đoạn văn, trong khi nhóm thực nghiệm được yêu cầu làm bài kiểm tra ghi nhớ về nội dung văn bản. Trong mỗi phiên học, người tham gia đọc một đoạn văn trong vòng 7 phút. Trong phiên kiểm tra, họ nhận được một tờ giấy có tiêu đề văn bản ở đầu và được yêu cầu viết lại càng nhiều thông tin từ văn bản càng tốt mà họ còn nhớ. Các sinh viên sau đó được kiểm tra lại sau các khoảng thời gian giữ thông tin là 5 phút, 2 ngày hoặc 1 tuần. Mỗi lần kiểm tra kéo dài 10 phút.

Kết quả cho thấy sau 5 phút, nhóm làm lại bài kiểm tra có kết quả thấp hơn một chút so với nhóm ôn lại văn bản (tỉ lệ nhớ lại nội dung thể hiện trên trục Y). Tuy nhiên, sau 2 ngày và 1 tuần, nhóm làm bài kiểm tra ghi nhớ lại giữ được lượng thông tin nhiều hơn đáng kể so với nhóm chỉ ôn lại văn bản.

2. Các bước thiết kế một nghiên cứu thực nghiệm

Một thiết kế nghiên cứu thực nghiệm bao gồm một số bước dưới đây.

2.1 Định nghĩa các mục tiêu nghiên cứu

Bất kỳ thiết kế nghiên cứu nào cũng bắt đầu bằng việc hình thành mục tiêu nghiên cứu. Bước này cần được thực hiện trước khi bạn quyết định có tiến hành nghiên cứu thực nghiệm hay không, vì chính mục tiêu nghiên cứu sẽ quyết định loại hình nghiên cứu phù hợp. Mục tiêu nghiên cứu mô tả bạn muốn nghiên cứu điều gì và bằng cách nào. Bạn cần trình bày rõ ràng mục đích của nghiên cứu là gì.

Mục tiêu nghiên cứu cần phải thực tế. Điều quan trọng là bạn phải nhận thức rằng mình không thể làm tất cả mọi thứ. Chúng ta phải giới hạn bản thân trong phạm vi những gì có thể nghiên cứu được. Ví dụ, giả sử chúng ta muốn tìm hiểu tác động của các điều kiện kiểm tra khác nhau đối với kết quả bài thi. Khi suy nghĩ kỹ, sẽ thấy có vô số điều kiện có thể thay đổi đôi chút và ảnh hưởng đến kết quả kiểm tra, chẳng hạn như mức độ ánh sáng, số lượng người lớn có mặt trong phòng, cách sắp xếp chỗ ngồi, nhiệt độ. Nghiên cứu tất cả những yếu tố này trong một nghiên cứu duy nhất là điều không thực tế, thậm chí là bất khả thi. Vì vậy, chúng ta cần đặt ra một mục tiêu hẹp hơn, bằng cách suy nghĩ xem yếu tố nào thực sự có thể tạo ra sự khác biệt, và chọn một (hoặc một vài) yếu tố cụ thể, ví dụ như cách sắp xếp chỗ ngồi. Khi đó, mục tiêu nghiên cứu của chúng ta sẽ là: xem xét liệu cách sắp xếp chỗ ngồi có ảnh hưởng đến kết quả thi hay không.

Chúng ta cũng cần xác định rõ quần thể nghiên cứu (population) của mình là gì. Quần thể là nhóm người mà chúng ta muốn khái quát hóa (generalize) kết quả nghiên cứu. Ví dụ, nếu chúng ta thực hiện thí nghiệm này, ta có thể sử dụng 40 sinh viên với hai cách sắp xếp chỗ ngồi khác nhau, và xem xét các tác động có thể xuất hiện.

Thông thường, chúng ta không muốn rút ra kết luận mà chỉ áp dụng cho 40 sinh viên đó. Điều chúng ta thực sự muốn là có thể nói điều gì đó mang tính tổng quát hơn về cách sắp xếp chỗ ngồi (và kết quả thi). Nhiều phương pháp thống kê mà chúng ta sẽ thảo luận trong các chương sau được thiết kế chính xác để phục vụ cho mục đích đó. Tuy nhiên, trước khi có thể làm điều này, chúng ta cần xác định rõ quần thể mà mình muốn khái quát hóa là ai. Tất cả sinh viên từ 18 tuổi trở lên? Hay chỉ sinh viên năm nhất? Điều này rất quan trọng, vì nó sẽ ảnh hưởng đến việc chúng ta lựa chọn ai để tham gia vào thí nghiệm. Ví dụ, nếu tôi thực hiện nghiên cứu chỉ với học sinh trung học phổ thông, thì tôi không thể khái quát hóa kết quả đó sang học sinh tiểu học.

2.2 Thiết lập giả thuyết

Những mục tiêu nghiên cứu mà bạn đã xây dựng giờ đây cần được tinh chỉnh thành các giả thuyết nghiên cứu (research hypotheses) cụ thể mà bạn muốn kiểm tra. Giả thuyết nghiên cứu có thể được định nghĩa là “một lời giải thích tạm thời cho một tập hợp các hiện tượng, và có thể được kiểm chứng thông qua điều tra nghiên cứu tiếp theo”. Trong nghiên cứu thực nghiệm, chúng ta thường xem xét hai loại giả thuyết rõ ràng: giả thuyết gốc (null hypothesis) (còn gọi là giả thuyết không) và giả thuyết đối nghịch (alternative hypothesis). Giả thuyết đối nghịch là điều mà chúng ta mong muốn là đúng; còn giả thuyết không là điều ngược lại.

Chẳng hạn, tôi có thể muốn biết liệu việc thêm hình ảnh động vào một bài thuyết trình có giúp học sinh ghi nhớ nội dung bài của thuyết trình tốt hơn không. Khi đó tôi sẽ có hai giả thuyết:

  • Giả thuyết gốc \(H_0\): Việc thêm hình ảnh động sẽ không cải thiện khả năng ghi nhớ nội dung của học sinh.

  • Giả thuyết đối nghịch \(H_1\): Việc thêm hình ảnh động sẽ cải thiện khả năng ghi nhớ nội dung của học sinh.

Ví dụ trên trình bày một trường hợp đơn giản nhất, khi chỉ có một giả thuyết cần kiểm định. Tuy nhiên, trong nhiều nghiên cứu, sẽ có nhiều giả thuyết được đưa ra, và ta cũng có thể đưa ra giả thuyết về các yếu tố trung gian (mediating) mà có ảnh hưởng đến mối quan hệ giữa các biến.

Một giả thuyết bổ sung có thể bao gồm yếu tố trung gian là việc hình ảnh động có được gắn kết chặt chẽ với nội dung hay không, ví dụ như sau:

  • \(H_1\): Việc thêm hình ảnh động sẽ cải thiện khả năng ghi nhớ nội dung của học sinh nếu hình ảnh động được liên kết chặt chẽ với nội dung.

  • \(H_0\): Việc thêm hình ảnh động sẽ không cải thiện khả năng ghi nhớ nội dung của học sinh nếu hình ảnh động được liên kết chặt chẽ với nội dung.

Mặc dù thuật ngữ gọi là “giả thuyết không”, nhưng điều đó không nhất thiết có nghĩa là giả thuyết không luôn phải khẳng định rằng không có tác động, còn giả thuyết đối thì khẳng định có tác động. Thực tế, giả thuyết không cũng có thể đưa ra một giá trị cụ thể. Ví dụ:

  • \(H_1\): Sự khác biệt giữa nam và nữ trong bài kiểm tra ghi nhớ từ vựng sẽ lớn hơn 20%.

  • \(H_0\): Sự khác biệt giữa nam và nữ trong bài kiểm tra ghi nhớ từ vựng sẽ nhỏ hơn 20%

Hoặc là:

  • \(H_1\): Điểm trung bình của bảng kiểm tra lòng tự trọng sẽ nằm trong khoảng từ 20 đến 30.

  • \(H_0\): Điểm trung bình của bảng kiểm tra lòng tự trọng sẽ nằm trong khoảng từ 10 đến 20.

Trên thực tế, hầu hết các nhà nghiên cứu thường kiểm định giả thuyết không theo hướng không có sự khác biệt, bởi vì các kiểm định thống kê tiêu chuẩn thông thường được thiết kế để kiểm tra chính giả thuyết này. Tuy nhiên, điều quan trọng cần ghi nhớ là các loại giả thuyết không khác cũng hoàn toàn có thể xảy ra, vì giá trị bằng 0 hoặc sự khác biệt bằng 0 không phải lúc nào cũng là giả định thực tế đối với câu hỏi nghiên cứu của bạn.

Ví dụ 2.2: Thông tin bằng lời nên được trình bày cho học sinh như thế nào để tăng cường việc học qua hình ảnh động: bằng âm thanh (giọng nói), hay bằng văn bản hiển thị trên màn hình?

Câu hỏi này đã được nghiên cứu bởi Mayer và Moreno (1998), những người đã thực hiện một thí nghiệm trong đó sinh viên được yêu cầu xem một hình ảnh động mô tả quá trình hình thành sét, đi kèm với thuyết minh bằng giọng nói hoặc văn bản hiển thị trên màn hình.

Lý thuyết mà họ muốn kiểm định cho rằng: việc học qua thị giác và thính giác được xử lý ở hai khu vực khác nhau trong bộ nhớ làm việc — bộ nhớ làm việc thị giác và bộ nhớ làm việc thính giác. Điều này có nghĩa là nếu phần thuyết minh được phát đồng thời với hình ảnh động, sinh viên sẽ mã hóa phần thuyết minh và hình ảnh vào hai vùng khác nhau trong bộ nhớ làm việc. Trong khi đó, nếu văn bản hiển thị trên màn hình đi cùng với hình ảnh động, sinh viên sẽ cố gắng mã hóa cả hai yếu tố này (hình ảnh và chữ viết) vào cùng một vùng trong bộ nhớ (bộ nhớ làm việc thị giác), điều này có thể dẫn đến quá tải thông tin. Do đó, họ đưa ra giả thuyết rằng nhóm học bằng giọng nói sẽ có kết quả tốt hơn nhóm học bằng văn bản.Thí nghiệm được tiến hành bằng cách phân ngẫu nhiên sinh viên vào hai nhóm: một nhóm xem hình ảnh động kèm văn bản hiển thị trên màn hình, nhóm còn lại xem hình ảnh động kèm thuyết minh bằng giọng nói. Sau khi xem xong, các sinh viên được yêu cầu làm ba bài kiểm tra: ghi nhớ, ghép nối, và vận dụng.

Kết quả cho thấy: nhóm xem hình ảnh động kèm thuyết minh bằng giọng nói đạt kết quả cao hơn đáng kể so với nhóm xem hình ảnh động kèm văn bản trong cả ba bài kiểm tra, từ đó ủng hộ giả thuyết của nhóm nghiên cứu.

2.3 Thiết lập thiết kế nghiên cứu

Sau khi đã thiết lập một hoặc nhiều giả thuyết, bạn cần quyết định cách thức kiểm định những giả thuyết đó. Nếu lựa chọn phương pháp nghiên cứu thực nghiệm (các ưu điểm và nhược điểm sẽ được thảo luận ở phần tiếp theo của chương này), thì bạn sẽ cần quyết định sử dụng loại thiết kế thực nghiệm nào.

Thiết kế thực nghiệm truyền thống, được biến đến với tên gọi thiết kế nhóm đối chứng có kiểm tra trước–sau (pre-test–post-test control group design), được thực hiện như sau:

Trước hết, người tham gia (trong nghiên cứu thực nghiệm thường được gọi là “đối tượng nghiên cứu” hay chỉ gọi tắt là “đối tượng”) sẽ được phân vào hai nhóm: nhóm thực nghiệm và nhóm đối chứng. Nhóm thực nghiệm (hay nhóm thử nghiệm) sẽ nhận được “can thiệp (treatment)” (ví dụ: thực hiện một bài kiểm tra như trong Ví dụ 2.1); trong khi đó nhóm đối chứng sẽ không nhận được can thiệp. Sau đó cả hai nhóm sẽ thực hiện một bài kiểm tra trước can thiệp (pre-test) trên công cụ đánh giá dùng để đo lường tác động của thí nghiệm (ví dụ: một bài kiểm tra), và sau đó là một bài kiểm tra sau can thiệp (post-test) – thường là trên cùng công cụ đó – sau khi can thiệp đã được thực hiện. Trình tự thực hiện được mô tả trong Table 2.1 dưới đây.

Table 2.1: Thiết kế thực nghiệm truyền thống
Nhóm Pre.test Treatment Post.test
Thử nghiệm X X X
Đối chứng X X

Sau khi thực hiện hậu can thiệp (post-test), các phân tích thống kê sẽ được tiến hành để xem liệu can thiệp có tạo ra ảnh hưởng hay không (chúng ta sẽ tìm hiểu chi tiết hơn về điều này trong các chương sau của cuốn sách).

Có một số biến thể của thiết kế nghiên cứu cơ bản này. Như được minh họa trong Ví dụ 2.2, trong nhiều trường hợp, việc có hơn một nhóm thử nghiệm là điều cần thiết. Chẳng hạn, có thể tồn tại các biến thể khác nhau của cùng một loại can thiệp mà chúng ta muốn nghiên cứu. Trong Ví dụ 2.2, thiết kế gồm hai nhóm thực nghiệm và một nhóm đối chứng. Ngoài ra, vẫn có thể mở rộng thêm với nhiều nhóm đối chứng hoặc nhóm thực nghiệm hơn nếu cần thiết.

Thiết kế kiểm tra trước–sau (pre-test–post-test) cũng không phải lúc nào cũng được áp dụng, như chúng ta có thể thấy trong Ví dụ 2.1, bước kiểm tra trước (pre-test) không được sử dụng. Tuy nhiên, thông thường, việc sử dụng cả pre-test và post-test sẽ tốt hơn, bởi vì nếu không có bước kiểm tra trước, chúng ta không thể chắc chắn rằng bất kỳ sự khác biệt nào được phát hiện trong bước kiểm tra hậu can thiệp (post-test) là do tác động của can thiệp, chứ không phải là do những khác biệt đã tồn tại sẵn giữa hai nhóm trước khi bước can thiệp được thực hiện.

Một quyết định khác mà bạn sẽ phải đưa ra là có nên cho nhóm đối chứng sử dụng giả dược (placebo) hay không. Cách thiết kế nghiên cứu này có nguồn gốc từ nghiên cứu y học, nơi mà người ta biết rõ rằng một số bệnh nhân hồi phục là do niềm tin vào phương pháp điều trị hơn là do chính phương pháp đó. Chính vì vậy, trong các thử nghiệm y học, người ta thường cho nhóm đối chứng sử dụng một giả dược (ví dụ, một viên đường trong khi vẫn cứ tưởng là thuốc). Thường thì một tỷ lệ người trong nhóm nhận viên đường sẽ hồi phục nhờ vào niềm tin rằng họ đang dùng thuốc hiệu quả (mặc dù anh ta chỉ uống viên đường nhưng vẫn lầm tưởng là thuốc). Điều này rõ ràng có nghĩa là nếu không cho giả dược, chúng ta sẽ không thể khẳng định chắc chắn rằng hiệu quả của phương pháp điều trị là do chính phương pháp đó, hay chỉ vì bệnh nhân tin rằng nó hiệu quả. Đây cũng có thể là một vấn đề trong nghiên cứu giáo dục.

Hiện tượng hành vi cá nhân có thể bị thay đổi vì người tham gia biết rằng họ đang được nghiên cứu đã được chứng minh trong một dự án (1927–1932) nhằm nâng cao năng suất lao động trong một nhà máy. Chuỗi nghiên cứu này, do giáo sư Elton Mayo của Trường Kinh doanh Harvard cùng với các cộng sự F. Roethlisberger và William J. Dickson thực hiện. Bắt đầu bằng việc xem xét liệu việc thay đổi các yếu tố vật lý và môi trường làm việc (ví dụ: độ sáng, độ ẩm) có thể cải thiện năng suất hay không. Sau đó họ chuyển sang điều chỉnh các yếu tố tâm lý (ví dụ: nghỉ giải lao, áp lực nhóm, giờ làm việc, lãnh đạo quản lý). Một trong những phát hiện chính là năng suất tăng lên bất kể cải tiến nào được đưa ra. Một lời giải thích là các công nhân họ biết các nhà nghiên cứu (và có thể cả giới chủ sử dụng lao động) đang chú ý đặc biệt đến họ nên điều này đã thúc đẩy các công nhân làm việc chăm chỉ hơn. Hiệu ứng tương tự cũng có thể xảy ra trong bối cảnh giáo dục. Một chương trình can thiệp, chẳng hạn như chương trình cải thiện kỹ năng đọc của học sinh, có thể khiến học sinh có động lực hơn vì họ nhận được sự quan tâm nhiều hơn, từ đó dẫn đến thành tích cao hơn chứ có thể không phải là vì chương trình đó. Tương tự, khi giáo viên tham gia một dự án mới, họ có thể làm việc chăm chỉ hơn và có động lực chỉ vì họ đang tham gia vào điều gì đó mới mẻ hoặc vì họ biết rằng mình là một phần của nghiên cứu.

Tuy nhiên, việc lựa chọn một giả dược trong nghiên cứu giáo dục có thể rất khó. Nó không đơn giản như việc cho bệnh nhân một viên đường. Bất kỳ sự can thiệp giả nào cũng phải đủ hợp lý để tạo ra hiệu ứng, và do đó nó thường dễ trở thành một can thiệp thực sự (ví dụ như một chương trình đọc hiểu khác) chứ không phải là một kiểu “giả dược” như ban đầu kì vọng. Điều này gây ra hai vấn đề: thứ nhất là chi phí và công sức bổ sung để phát triển một giả dược hợp lý; và thứ hai là thực tế rằng giờ đây chúng ta đang đo lường hiệu quả của một phương pháp điều trị so với một phương pháp điều trị khác, thay vì so với nhóm đối chứng không can thiệp

2.4 Lựa chọn công cụ

Sau khi đã lựa chọn được một thiết kế thực nghiệm phù hợp, bạn cần tiếp tục chọn hoặc xây dựng các công cụ đo lường (hay thang đo) thích hợp cho cả pre-test và post-test. Đây là một bước cực kỳ quan trọng, bởi vì dù thiết kế thực nghiệm có chất lượng cao đến đâu hay phương pháp phân tích thống kê có tinh vi đến mấy, cũng không thể bù đắp được cho một hệ thống đo lường kém chất lượng. Một kỹ sư cần có công cụ phù hợp để làm việc. Hãy tưởng tượng bạn cố gắng lắp ráp một chiếc ô tô chỉ với búa, vài cái đinh và một tấm ván, thì bạn sẽ hiểu được vấn đề tôi đang nói đến!. Công cụ đo lường cần phải thỏa mãn hai tiêu chí cơ bản. Thứ nhất, chúng phải đo được đúng thứ mà chúng ta cần đo — đây gọi là tính chuẩn xác (validity). Thứ hai, chúng phải ổn định và nhất quán qua thời gian, hay còn gọi là tính tin cậy (reliability). Hai khái niệm này sẽ được bàn luận chi tiết hơn trong Chương 4.

2.5 Chọn mức kiểm định phù hợp để kiểm tra các giả thuyết

Trong thiết kế thực nghiệm, bạn cần suy nghĩ cẩn trọng về mức độ can thiệp phù hợp để kiểm định giả thuyết của mình. Tầm quan trọng của điều này sẽ trở nên rõ ràng nếu bạn nghĩ đến ví dụ về thuốc paracetamol: liều lượng đúng sẽ giúp làm giảm đau đầu và các cơn đau. Nhưng nếu liều quá thấp thì không có tác dụng, còn nếu quá cao thì có thể gây tử vong.

Dù trong giáo dục, hậu quả của việc can thiệp quá mức thường ít nghiêm trọng hơn, nhưng việc xác định “liều lượng” phù hợp vẫn là điều rất quan trọng. Hãy nghĩ đến một chương trình hỗ trợ thêm kỹ năng đọc cho những học sinh có năng lực đọc thấp hơn so với độ tuổi. Nếu hỗ trợ quá ít, chương trình có thể không mang lại hiệu quả mong muốn. Nhưng nếu hỗ trợ quá nhiều, học sinh có thể cảm thấy chán nản hoặc mất hứng thú với chương trình, hoặc việc cải thiện kỹ năng đọc có thể đánh đổi bằng việc giảm thời gian học các môn khác trong thời khóa biểu.

Trong một số trường hợp, bạn có thể muốn kiểm tra tác động của các mức độ can thiệp khác nhau. Ví dụ, trong Ví dụ 2.2, liệu lượng văn bản được thêm vào hình ảnh động có tạo ra sự khác biệt trong việc can thiệp đó có mang lại kết quả tích cực hay không? Trong tình huống như vậy, bạn có thể thực hiện một loạt các thí nghiệm, trong đó thay đổi mức độ can thiệp được áp dụng cho nhóm thực nghiệm, nhằm đánh giá xem mức độ nào là hiệu quả nhất.

2.6 Phân bổ người vào các nhóm

Việc phân nhóm người tham gia là bước tiếp theo trong thiết kế thực nghiệm. Như đã đề cập ở trên, trong nghiên cứu thực nghiệm, chúng ta luôn cố gắng giảm thiểu tối đa ảnh hưởng của các yếu tố bên ngoài. Điều này đồng nghĩa với việc chúng ta cần đảm bảo rằng nhóm thực nghiệm và nhóm đối chứng có sự khác biệt càng ít càng tốt ngay từ đầu thí nghiệm. Nếu không, bất kỳ hiệu ứng nào chúng ta tìm thấy có thể là do sự khác biệt vốn có giữa các nhóm, chứ không phải là do tác động của can thiệp.

Hãy tưởng tượng, chẳng hạn trong Ví dụ 2.2, chúng ta chọn học sinh từ lớp chọn (học lực cao) cho nhóm hoạt hình–thuyết minh, và học sinh từ lớp trung bình hoặc yếu cho nhóm hoạt hình–văn bản. Khi đó, sự khác biệt về điểm số sau thí nghiệm nhiều khả năng sẽ là kết quả của việc nhóm hoạt hình–thuyết minh có năng lực học tập và tiếp thu tốt hơn, chứ không phải vì thuyết minh bằng giọng nói là phương pháp hiệu quả hơn so với văn bản hiển thị. Chính vì vậy, chúng ta cần đảm bảo việc phân nhóm người tham gia là hoàn toàn không thiên lệch.

Cách tốt nhất để đảm bảo điều này là sử dụng phương pháp ngẫu nhiên hóa (randomisation). Điều đó có nghĩa là sau khi chúng ta đã chọn xong các đối tượng tham gia nghiên cứu, họ sẽ được phân vào nhóm thực nghiệm hoặc nhóm đối chứng một cách ngẫu nhiên – ví dụ, bằng cách gán số cho mỗi người, sau đó rút thăm số một cách ngẫu nhiên để chia họ vào từng nhóm. Ngẫu nhiên hóa là phương pháp hiệu quả nhất để tránh thiên lệch, vì nó đảm bảo rằng mọi người đều có cơ hội ngang nhau để được phân vào bất kỳ nhóm nào. Tác dụng của phương pháp này tương tự như khi chơi bài với hai người: bằng cách xáo bài rồi chia, chúng ta đảm bảo rằng mỗi lá bài đều có cơ hội như nhau để rơi vào tay bất kỳ người chơi nào.

Để kiểm tra xem việc ngẫu nhiên hóa có thực sự hiệu quả hay không, thì một phương pháp tốt là là thu thập dữ liệu về từng người tham gia liên quan đến những biến mà bạn cho rằng có thể ảnh hưởng đến kết quả, chẳng hạn như giới tính, độ tuổi hoặc năng lực. Nhờ đó, chúng ta có thể kiểm tra xem các nhóm có thực sự tương đồng với nhau về tất cả những biến quan trọng hay không.

2.7 Tiến hành thực nghiệm một cách tỉ mỉ

Khi mọi yếu tố đã được chuẩn bị đầy đủ, thử nghiệm cần được tiến hành. Trong quá trình thực hiện thử nghiệm – tức là thực hiện bước kiểm tra trước (pre-test), sau đó áp dụng can thiệp (treatment), và cuối cùng là thực hiện bước hậu kiểm tra (post-test) – chúng ta cần đảm bảo kiểm soát tối đa các yếu tố ngoại lai (extraneous factors).

Như đã đề cập ở trên, nếu chúng ta muốn xác định đâu là nguyên nhân (tức là can thiệp của chúng ta) và đâu là kết quả (hiệu ứng xảy ra), thì duy trì được sự kiểm soát là điều thiết yếu. Điều này bao gồm hai yếu tố:

Thứ nhất chúng ta sẽ muons kiểm soát môi trường (thực hiện thí nghiệm). Sẽ rất khó để tiến hành một thí nghiệm trong một môi trường mà có quá nhiều yếu tố khác xen vào. Và phải chắc chắn rằng kết quả thu được là do can thiệp, chứ không phải vì các yếu tố ngoài ý muốn nào đó gây ra. Chính vì lý do đó, nhiều thí nghiệm được tiến hành trong phòng thí nghiệm, nơi nhà nghiên cứu có toàn quyền kiểm soát môi trường.

Thứ hai là việc kiểm soát cách thức thực hiện thí nghiệm. Mỗi lần chúng ta áp dụng can thiệp cho một đối tượng, chúng ta cần đảm bảo cách thực hiện là hoàn toàn giống nhau cho mọi đối tượng còn lại. Điều này nhằm tránh tạo ra thiên lệch từ phía người thực hiện thí nghiệm – còn gọi là experimenter bias, tức là ảnh hưởng vô tình của người thực hiện lên kết quả nghiên cứu. Ví dụ, nếu một người thực hiện chương trình can thiệp kỹ năng đọc cho học sinh tỏ ra rất nhiệt tình, còn một người khác lại hoài nghi và thể hiện điều đó bằng những câu như: “Thầy cũng không chắc chương trình này có giúp ích gì đâu, đây chỉ là một thí nghiệm thôi mà”, thì hiệu ứng khác biệt giữa hai nhóm học sinh là hoàn toàn có thể xảy ra – không phải vì chương trình, mà vì thái độ của người thực hiện thử nghiệm.

2.8 Phân tích số liệu

Khi các thử nghiệm đã được tiến hành và kiểm tra sau can thiệp (post-test) đã hoàn tất, chúng ta cần phân tích kết quả. Thông thường, các phương pháp như kiểm định t (t-test) và phân tích phương sai (ANOVA) sẽ được sử dụng. Chúng ta sẽ thảo luận chi tiết các phương pháp này lần lượt ở Chương 7 và Chương 10. Các kết quả phân tích sẽ cho chúng ta biết liệu có thể tạm thời bác bỏ giả thuyết không (null hypothesis) – tức là giả thuyết mà ta không mong muốn đúng – hay không.

3. Điểm mạnh và hạn chế của nghiên cứu thử nghiệm trong giáo dục

3.1 Điểm mạnh

Ưu điểm chính của nghiên cứu thực nghiệm là khả năng kiểm soát các yếu tố bên ngoài, điều mà tôi đã nhiều lần nhấn mạnh trong phần trước. Vậy tại sao chúng ta lại muốn kiểm soát các yếu tố và biến số nằm ngoài thiết kế thực nghiệm? Chúng ta làm điều đó bởi vì việc kiểm soát tốt các yếu tố bên ngoài sẽ giúp ta đưa ra lập luận mạnh mẽ hơn rằng mối quan hệ được phát hiện là quan hệ nhân quả (causality).

Một trong những mục tiêu phổ biến trong nghiên cứu định lượng là xác định mối quan hệ nhân quả – tức là điều gì/cái gì là nguyên nhân, và điều gì/cái gì là hệ quả. Trên thực tế, trong nhiều cuộc thảo luận về kết quả nghiên cứu, khái niệm nguyên nhân (cause) thường được sử dụng một cách phổ biến và cả tùy tiện. Ví dụ, người ta có thể nói: “Một chương trình học quá nặng về lý thuyết là nguyên nhân khiến học sinh chán học”. Nhiều nghiên cứu muốn xác định nguyên nhân, và các nhà hoạch định chính sách cũng thường xuyên muốn tìm hiểu nguyên nhân của các vấn đề xã hội (ví dụ: “nguyên nhân của tội phạm”).

Tuy nhiên, trên thực tế, việc xác định mối quan hệ nhân quả là một điều rất khó. Để có thể khẳng định rằng một biến là nguyên nhân của một biến khác, cần phải thỏa mãn ba điều kiện cơ bản:

  1. Cần phải tồn tại mối quan hệ (relationship) giữa hai biến. Mối quan hệ này có thể là thuận chiều (dương) hoặc nghịch chiều (âm).

Trong mối quan hệ thuận chiều, giá trị cao hơn ở một biến sẽ đi kèm với giá trị cao hơn ở biến còn lại. Ví dụ, mức độ đạt thành tích cao hơn ở trường học thường đi đôi với mức độ hài lòng cao hơn về trường học. Trong mối quan hệ nghịch chiều, giá trị thấp hơn ở một biến sẽ đi kèm với giá trị cao hơn ở biến kia. Ví dụ, trong các trường học, tỷ lệ học sinh có cha mẹ thuộc tầng lớp kinh tế–xã hội thấp càng cao thì kết quả đạt được trong các bài kiểm tra chuẩn hóa thường càng thấp. Nếu không tồn tại mối quan hệ giữa các biến, thì không thể có quan hệ nhân quả. Có nhiều phương pháp thống kê giúp xác định xem hai (hoặc nhiều) biến có liên hệ với nhau hay không, và tôi sẽ thảo luận chi tiết về các phương pháp này trong các chương tiếp theo.

  1. Thứ hai, cần tồn tại trật tự thời gian (time order) giữa hai biến. Để có thể khẳng định rằng một biến là nguyên nhân gây ra biến còn lại, thì biến đó phải xảy ra trước về mặt thời gian. Hãy xem xét ví dụ về mối quan hệ giữa thứ tự sinh và thành tích học tập ở trường. Một số nghiên cứu (Muijs, 1997) đã phát hiện ra rằng có mối liên hệ giữa hai yếu tố này, trong đó con đầu lòng thường đạt điểm cao hơn những người sinh sau. Trong trường hợp này, có thể tồn tại mối quan hệ nhân quả. Rõ ràng sẽ là vô lý nếu ta giả định rằng thành tích học tập lại là nguyên nhân dẫn đến thứ tự sinh, bởi vì về mặt thời gian, thành tích học tập luôn đến sau khi sinh. Như vậy, chiều của quan hệ nhân quả là rõ ràng: thứ tự sinh có thể là nguyên nhân ảnh hưởng đến thành tích học tập.

Tuy nhiên, trong nhiều trường hợp của nghiên cứu giáo dục, mọi việc không đơn giản như vậy. Hãy nghĩ đến mối quan hệ giữa động lực học tập của học sinh và thành tích học tập. Ở đây, không dễ để xác định yếu tố nào xảy ra trước. Liệu học sinh ít động lực sẽ học kém hơn vì thiếu động lực? Hay ngược lại, kết quả học tập kém lại làm giảm động lực của học sinh? Rất có thể đây là mối quan hệ hai chiều (tương hỗ), nơi mà hai yếu tố tác động lẫn nhau theo vòng lặp: thành tích kém làm giảm sự tự tin, từ đó khiến thành tích tiếp tục đi xuống. Nhưng yếu tố nào xuất hiện trước? Đây là một câu hỏi “gà hay trứng có trước” rất khó trả lời một cách dứt khoát.

  1. Điều kiện thứ ba để xác định quan hệ nhân quả là: mối quan hệ được phát hiện không được là kết quả của một biến gây nhiễu (confounding variable). Điều này có nghĩa là mối quan hệ đó không thể được giải thích bởi một biến thứ ba. Một ví dụ kinh điển là mối quan hệ giữa cò và trẻ sơ sinh: tại một số quốc gia châu Âu, khi trẻ con hỏi cha mẹ rằng “em bé đến từ đâu”, câu trả lời truyền thống thường là “cò mang đến”. Điều thú vị là một số nhà thống kê đã tìm thấy bằng chứng thống kê mạnh mẽ cho mối quan hệ này. Ví dụ, Lowry (2002) cho biết rằng nếu người ta xem xét các số liệu thống kê tại thành phố Copenhagen trong khoảng 10 đến 12 năm sau Thế chiến thứ hai, sẽ thấy một mối tương quan thuận rất mạnh giữa số lượng cò làm tổ hàng năm và số lượng trẻ sơ sinh được sinh ra hàng năm tại thành phố này.

Vậy có phải cò thực sự mang theo trẻ sơ sinh không? Rõ ràng là không — ở đây có một biến gây nhiễu. Trong giai đoạn 10–12 năm sau Thế chiến II, dân số của Copenhagen (cũng như nhiều thành phố châu Âu khác) tăng mạnh. Hệ quả là số người trong độ tuổi sinh đẻ tăng, dẫn đến số trẻ sơ sinh ra đời cũng tăng. Đồng thời, để đáp ứng nhu cầu dân số, thành phố phải mở rộng và xây dựng thêm nhiều công trình, điều này tình cờ tạo ra thêm nhiều nơi làm tổ cho cò, dẫn đến sự gia tăng số lượng cò.

Vì vậy, mối tương quan giữa cò và trẻ sơ sinh thực chất là do cả hai đều bị ảnh hưởng bởi một biến thứ ba: sự gia tăng dân số.

Cả ba điều kiện: (1) tồn tại mối quan hệ giữa hai biến, (2) tuân thủ trật tự thời gian, và (3) không có biến gây nhiễu – đều phải đồng thời xuất hiện thì ta mới có thể kết luận rằng một biến là nguyên nhân gây ra biến còn lại.

Vậy tại sao nghiên cứu thực nghiệm lại vượt trội hơn các loại nghiên cứu khác trong việc xác định quan hệ nhân quả? Điều này xuất phát từ yếu tố kiểm soát, như đã được đề cập trước đó.

Yếu tố đầu tiên – xác định xem có mối quan hệ giữa các biến hay không – có thể được thực hiện bằng bất kỳ loại nghiên cứu định lượng nào. Về mặt này, nghiên cứu thực nghiệm không nhất thiết vượt trội hơn các thiết kế phi thực nghiệm.

Tuy nhiên, tình hình khác hẳn đối với hai điều kiện còn lại trong việc xác lập quan hệ nhân quả. Trong nghiên cứu thực nghiệm, nhà nghiên cứu chủ động kiểm soát và điều khiển biến can thiệp, do đó có thể chắc chắn rằng yếu tố nguyên nhân xảy ra trước kết quả (tức là đảm bảo được trật tự thời gian).

Tương tự, vấn đề các biến ngoại lai làm nhiễu mối quan hệ cũng ít nghiêm trọng hơn trong nghiên cứu thực nghiệm so với các loại hình nghiên cứu khác, bởi vì người thực hiện có thể kiểm soát môi trường và giảm thiểu tối đa ảnh hưởng của các yếu tố bên ngoài, như chúng ta đã thấy trong phần thiết kế thí nghiệm.

Vậy điều này có nghĩa là khi chúng ta thực hiện một thí nghiệm và thu được kết quả có ý nghĩa thống kê, ta có thể chắc chắn về mối quan hệ nhân quả hay không? Rõ ràng là không phải như vậy, vì các lý do sau đây:

  1. Kết quả từ một thí nghiệm đơn lẻ có thể chỉ là do ngẫu nhiên. Chỉ khi nghiên cứu được lặp lại (replicated) – tức là kết quả được lặp lại trong nhiều nghiên cứu khác nhau, với các nhóm người tham gia khác nhau, và tốt nhất là trong những bối cảnh hơi khác nhau – thì chúng ta mới có thể thực sự tin tưởng vào tính nhân quả.

  2. Luôn có khả năng rằng kết quả thu được là do một yếu tố ngoại lai mà ta đã không lường đến khi thiết kế thí nghiệm.

  3. Chúng ta đang tạo ra một tình huống nhân tạo (artificial situation). Vì vậy, vẫn còn một câu hỏi quan trọng: Liệu những hiệu ứng quan sát được có thực sự xảy ra trong các tình huống trong thực tế không?

3.2 Hạn chế

Mục này chỉ cho chúng ta đến một số hạn chế của phương pháp thực nghiệm. Môi trường thí nghiệm bản chất là một môi trường nhân tạo, do đó tính tương thích với các tình huống thực tế thường bị nghi ngờ. Một câu hỏi đặt ra là: Liệu kết quả thu được từ các thí nghiệm có thực sự áp dụng được vào bối cảnh giáo dục đời thường không?

Chính ở điểm này, yếu tố kiểm soát – vốn là ưu điểm lớn nhất của phương pháp thực nghiệm – lại có thể trở thành điểm yếu. Trong môi trường học đường thực tế, bất kỳ mối quan hệ nhân quả nào được phát hiện trong điều kiện thí nghiệm đều có nguy cơ bị ảnh hưởng bởi vô số yếu tố ngữ cảnh, làm cho mối quan hệ đó trở nên kém ổn định và khó dự đoán hơn nhiều so với trong môi trường thí nghiệm được kiểm soát chặt chẽ. Chẳng hạn, quay lại ví dụ về cách trình bày thông tin bằng hình ảnh động, ta cần đặt câu hỏi: Liệu hiệu ứng được ghi nhận trong thí nghiệm có thực sự mang lại ý nghĩa trong thực tiễn giảng dạy không? Hay đó chỉ là một hiệu ứng nhỏ, không đủ tạo ra khác biệt đáng kể trong việc học của học sinh, đặc biệt khi so với những yếu tố ảnh hưởng mạnh mẽ hơn như cách giáo viên tương tác với học trò? Rõ ràng, tính chuyển giao (transferability) – tức khả năng áp dụng kết quả của một nghiên cứu cụ thể vào bối cảnh thực tế – là một thách thức lớn trong nghiên cứu thực nghiệm trong giáo dục.

Một vấn đề khác của nghiên cứu thực nghiệm là áp dụng (các lết luận rút ra từ nghiên cứu) và bối cảnh giáo dục ở thế giới thực là khó khăn. Hãy xét đến ví dụ về việc đánh giá các chương trình và sáng kiến giáo dục. Chúng ta có thể muốn sử dụng thiết kế thực nghiệm để thực hiện việc đánh giá này, vì mục tiêu là xác định xem can thiệp có thực sự mang lại cải thiện cho nhà trường hay không.

Ví dụ, ta muốn xây dựng một chương trình can thiệp nhằm nâng cao kết quả đọc hiểu của học sinh, và kiểm tra xem chương trình đó có hiệu quả không. Một thiết kế thực nghiệm thuần túy sẽ yêu cầu phân chia học sinh một cách ngẫu nhiên vào nhóm can thiệp và nhóm đối chứng, trong cùng một trường nơi diễn ra thí nghiệm. Tuy nhiên, điều này thường rất khó thực hiện trong thực tế. Giáo viên và phụ huynh thường không mấy thiện cảm với cách tiếp cận này, và rõ ràng cũng có những vấn đề đạo đức: chúng ta đang cho phép một nhóm học sinh được tiếp cận với chương trình mà ta cho là hiệu quả, trong khi nhóm còn lại thì không. Về mặt triển khai, việc điều chỉnh thời khóa biểu và các yếu tố tổ chức khác để phù hợp với thiết kế thí nghiệm cũng gặp nhiều khó khăn. Những khó khăn này càng trở nên lớn hơn nếu thí nghiệm được triển khai tại nhiều trường học cùng lúc.

Một vấn đề khác phát sinh khi chúng ta triển khai một can thiệp được thiết kế đặc biệt để thực hiện trong lớp học, chẳng hạn như một phương pháp giảng dạy mới. Rõ ràng sẽ rất khó khăn nếu chúng ta cố gắng phân bổ ngẫu nhiên học sinh vào các giáo viên có và không áp dụng phương pháp can thiệp. Tương tự như ví dụ đã nêu ở trên, cách làm này có thể gây xáo trộn hoạt động của nhà trường, đồng thời dẫn đến những vấn đề đạo đức, thậm chí phát sinh khiếu nại từ phía phụ huynh.

Một vấn đề lớn khác là thiếu khả năng kiểm soát môi trường. Như bạn biết, trong bối cảnh lớp học có rất nhiều yếu tố khác nhau có thể ảnh hưởng đến kết quả, khiến cho việc quy kết tác động đạt được là do can thiệp trở nên khó khăn. Chẳng hạn, giáo viên có thể khác nhau về mức độ hiệu quả giảng dạy, hoặc học sinh có thể ảnh hưởng lẫn nhau thông qua tương tác bạn bè. Tuy nhiên, nếu chuyển can thiệp ra khỏi lớp học và đặt vào môi trường phòng thí nghiệm nhằm tăng mức độ kiểm soát, thì kết quả lại có thể gây nghi ngờ về tính khả chuyển. Nếu một can thiệp được thiết kế để áp dụng trong lớp học, thì việc nghiên cứu nó trong một môi trường nhân tạo trong bối cảnh thử nghiệm thường không hợp lý.

Chính vì những vấn đề nêu trên, các chương trình can thiệp trong trường học thường được đánh giá bằng các thiết kế (nghiên cứu) bán thực nghiệm (quasi-experimental designs).

4. Nghiên cứu bán thực nghiệm

Nghiên cứu bán thực nghiệm (quasi-experimental designs) được xây dựng nhằm mô phỏng càng gần càng tốt những lợi thế của thiết kế thực nghiệm thuần túy trong những trường hợp mà các hạn chế (của nghiên cứu thực nghiệm thuần túy) đã nêu ở trên xuất hiện. Chẳng hạn như việc phải triển khai một chương trình trong bối cảnh thực tế của trường học – khiến việc áp dụng thiết kế thực nghiệm không khả thi.

Sự khác biệt chính giữa nghiên cứu thực nghiệm và nghiên cứu bán thực nghiệm nằm ở cách phân nhóm người tham gia. Như đã đề cập ở phần trước, trong thiết kế thực nghiệm truyền thống, việc phân nhóm được thực hiện thông qua ngẫu nhiên hóa nhằm giảm thiểu thiên lệch. Trong khi đó, thiết kế bán thực nghiệm thường được sử dụng chính vì việc phân nhóm ngẫu nhiên là không thể hoặc không thực tế.

Thông thường, nhóm thực nghiệm sẽ được xác định dựa trên những cơ sở (ví dụ: trường học, lớp học hoặc nhà máy) tình nguyện hoặc được lựa chọn để tham gia chương trình can thiệp. Do đó, thay vì phân nhóm ngẫu nhiên, chúng ta sẽ phải lựa chọn một nhóm đối chứng sao cho càng giống nhóm thực nghiệm càng tốt.

Tuy nhiên, vì không có phân nhóm ngẫu nhiên, nên nhóm đối chứng trong thiết kế bán thực nghiệm được gọi là “nhóm so sánh” (comparison group), chứ không phải là nhóm đối chứng thuần túy như trước. Để duy trì được tối đa ưu điểm của thiết kế thực nghiệm – cụ thể là kiểm soát môi trường nghiên cứu – điều tối quan trọng là phải đảm bảo nhóm thực nghiệm và nhóm so sánh càng tương đồng càng tốt. Đây là một nhiệm vụ không dễ dàng, bởi vì trong bối cảnh giáo dục, có rất nhiều biến số có thể ảnh hưởng đến kết quả nghiên cứu. Do đó, những gì tốt nhất chúng ta có thể làm là xem xét kỹ lưỡng các yếu tố có thể tác động đến kết quả, và cố gắng ghép các nhóm nghiên cứu sao cho tương đương với nhau trên các yếu tố đó.

Ví dụ 2.3: Đánh giá một chương trình phát triển cá nhân

Nghiên cứu bán thực nghiệm đặc biệt phù hợp để xem xét tác động của một can thiệp giáo dục, chẳng hạn như chương trình cải tiến trường học, dự án nhằm cải thiện một khía cạnh cụ thể (ví dụ: chương trình phòng chống bạo lực học đường), hoặc chương trình phát triển chuyên môn cho giáo viên.

Trong một ví dụ cụ thể, Veenman và cộng sự (1996) đã báo cáo kết quả đánh giá một sáng kiến của Hà Lan được thiết kế nhằm nâng cao chất lượng giảng dạy ở các trường trung học. Dựa trên khoa học nhận thức và nghiên cứu về hiệu quả giảng dạy, một chương trình phát triển chuyên môn đã được triển khai nhằm huấn luyện giáo viên sử dụng hai mô hình dạy học trực tiếp: một mô hình tập trung vào kỹ năng có cấu trúc rõ ràng, và mô hình còn lại nhằm phát triển kỹ năng tư duy bậc cao. Trong quá trình đánh giá, 27 giáo viên đến từ ba trường đào tạo sư phạm, những người đã được huấn luyện theo mô hình giảng dạy nói trên, được so sánh với 24 giáo viên dạy ở các lớp song song trong cùng trường nhưng không được đào tạo theo mô hình đó, nhằm xem xét liệu các giáo viên thực tập có sử dụng các chiến lược giảng dạy này hay không. Tất cả giáo viên đều được quan sát bởi những người giám sát có chuyên môn, cả trước và sau can thiệp, và hiệu suất giảng dạy của họ được đánh giá tại hai thời điểm này bằng một thang đo hành vi đặc biệt được thiết kế riêng (xem thêm Chương 3 để biết chi tiết về cách xây dựng thang đo quan sát).

Kết quả quan sát trước can thiệp cho thấy không có sự khác biệt đáng kể giữa nhóm thực nghiệm và nhóm so sánh về bất kỳ yếu tố nào, ngoại trừ hành vi thực hiện nhiệm vụ, với tỷ lệ là 84% ở nhóm thực nghiệm và 77% ở nhóm đối chứng. Do đó, yếu tố này đã được đưa vào mô hình phân tích phương sai (ANOVA) để xử phân tích liệu hậu kiểm (xem Chương 10 để biết thêm về phương pháp thống kê này). Sau khi can thiệp được thực hiện (nhóm thực nghiệm được đào tạo theo mô hình giảng dạy trực tiếp, nhóm so sánh học theo chương trình thông thường), các giáo viên thực tập được quan sát lại bằng cùng một thang đo. Kết quả cho thấy các giáo viên thuộc nhóm thực nghiệm có điểm số cao hơn nhóm đối chứng trên tất cả các tiểu thang đo.

Đây là một ví dụ điển hình cho việc ứng dụng phương pháp bán thực nghiệm để đánh giá tác động của một chương trình can thiệp, trong trường hợp này là nâng cao hiệu quả giảng dạy của giáo viên thực tập. Việc sử dụng các lớp song song làm nhóm so sánh giúp đảm bảo tính tương đồng giữa các nhóm, vì học viên thường được phân lớp một cách ngẫu nhiên. Việc sử dụng cùng một thang đo quan sát cho cả hai nhóm cũng giúp tăng độ tin cậy và khả năng so sánh, và các quan sát viên đã được đào tạo kỹ lưỡng. Tuy nhiên, điểm chưa rõ trong bài báo là liệu các quan sát viên có biết nhóm nào là nhóm thực nghiệm, nhóm nào là nhóm đối chứng hay không. Nếu họ biết, thì có thể xuất hiện sai lệch do thiên kiến, tức là người quan sát có xu hướng đánh giá tích cực hơn cho nhóm thực nghiệm.

Một yếu tố rất quan trọng đối với hầu hết các kết quả giáo dục – dù là thái độ đối với nhà trường, sức khỏe tinh thần, hay thành tích học tập – chính là nền tảng xuất thân của học sinh. Các nhóm thực nghiệm và nhóm so sánh cần phải tương đồng càng nhiều càng tốt về các yếu tố như tình trạng kinh tế xã hội của phụ huynh (Socio-Economic Status - SES), giới tính, dân tộc, và năng lực học tập.

Ví dụ, trong một thiết kế nghiên cứu nội bộ trong cùng một trường, không thể triển khai một chương trình ở lớp học yếu rồi so sánh kết quả với lớp học giỏi hơn, và kết luận rằng sự khác biệt là do chương trình can thiệp, mà không xét đến sự khác biệt trước đó về trình độ học sinh. Tương tự, so sánh một trường học ở khu vực khó khăn với một trường ở vùng ngoại ô khá giả cũng sẽ làm sai lệch kết luận, vì khó có thể khẳng định rằng hiệu quả quan sát được là do chương trình can thiệp, thay vì sự khác biệt về nền tảng kinh tế xã hội của học sinh. Vì vậy, chúng ta cần cố gắng ghép nhóm đối chứng (các trường, lớp…) sao cho tương đồng với nhóm thực nghiệm về các yếu tố nền tảng học sinh. Tuy nhiên, nền tảng học sinh không phải là nhóm biến duy nhất có thể khác nhau giữa các nhóm và ảnh hưởng đến kết quả.

Chất lượng giáo viên được chứng minh là một yếu tố ảnh hưởng lớn đến thành tích học sinh, cũng như năng lực lãnh đạo của nhà trường, văn hóa trường học, và tác động từ bạn bè cùng lớp. Ngoài ra, cũng cần lưu ý rằng trong thực tế, luôn có nhiều chương trình can thiệp khác diễn ra song song trong một trường học.

Ví dụ, bên cạnh chương trình can thiệp về kỹ năng đọc mà bạn đang đánh giá, nhà trường có thể đồng thời triển khai một chiến lược giáo dục ngôn ngữ bắt buộc theo quy định của nhà nước. Mặc dù lý tưởng là nên ghép nhóm sao cho tương đồng về tất cả những yếu tố này, nhưng điều đó thường rất khó đạt được. Do đó, với tư cách là nhà nghiên cứu, bạn cần cố gắng thu thập càng nhiều thông tin càng tốt về các biến số có thể ảnh hưởng đến kết quả nghiên cứu trong thiết kế bán thực nghiệm. Sau đó, bạn có thể sử dụng các phương pháp thống kê để kiểm soát ảnh hưởng của những biến này.

Rõ ràng, xét từ góc độ xác lập quan hệ nhân quả, thiết kế bán thực nghiệm không hiệu quả bằng thiết kế thực nghiệm thuần túy. Như đã trình bày ở trên, việc tìm được một nhóm so sánh tương đồng hoàn toàn với nhóm thực nghiệm là nhiệm vụ đặc biệt khó khăn, và việc không áp dụng ngẫu nhiên hóa sẽ dẫn đến khả năng sai lệch (bias) trong nghiên cứu. Ngay cả khi chúng ta đã cố gắng ghép nhóm thực nghiệm và nhóm so sánh sao cho tương đồng trên tất cả những biến số mà ta có thể nghĩ đến, vẫn có thể tồn tại những yếu tố khác mang tính đặc thù văn hóa của từng bối cảnh (trường học, lớp học) có thể ảnh hưởng đến kết quả nghiên cứu. Tuy nhiên, việc sử dụng thiết kế ghép cặp giữa nhóm thực nghiệm và nhóm so sánh (matched experimental–comparison design) vẫn cho phép chúng ta đánh giá được hiệu quả của can thiệp một cách tốt hơn bất kỳ phương pháp nào khác, ngoại trừ một thí nghiệm thực sự. Điều này là do chúng ta vẫn đang cố gắng kiểm soát càng nhiều yếu tố càng tốt, và so sánh giữa hai nhóm càng tương đồng càng tốt – điều mà chúng ta không thể đạt được nếu chỉ dùng phương pháp khảo sát, chẳng hạn (xem thêm ở Chương 3).

Thiết kế nghiên cứu bán thực nghiệm có một lợi thế rõ rệt so với thiết kế thực nghiệm thuần túy, đó là chúng được tiến hành trong các bối cảnh giáo dục thực tế (hoặc gần với thực tế nhất có thể). Nếu chúng ta phát hiện ra tác động của chương trình, thì ít nhất ta có thể tin tưởng rằng những tác động này thực sự có hiệu quả trong môi trường học đường thực tế, với toàn bộ sự phức tạp vốn có của nó – chứ không chỉ trong môi trường phòng thí nghiệm nhân tạo. Chính vì lý do này, nghiên cứu bán thực nghiệm là một phương pháp phù hợp để đánh giá các sáng kiến và chương trình mới trong giáo dục.

Cấu trúc cơ bản của một nghiên cứu bán thực nghiệm nhìn chung khá giống với một nghiên cứu thực nghiệm. Cũng như trong nghiên cứu thực nghiệm, ta bắt đầu bằng mục tiêu nghiên cứu và giả thuyết (ví dụ: can thiệp sẽ giúp cải thiện kết quả đọc hiểu), sau đó thiết kế nghiên cứu bán thực nghiệm. Thiết kế nghiên cứu này về cơ bản không khác biệt nhiều so với thiết kế thực nghiệm, với bài kiểm tra đầu vào (pre-test), tiếp theo là can thiệp, và sau đó là bài kiểm tra đầu ra (post-test) áp dụng cho cả nhóm thực nghiệm và nhóm so sánh.

Tương tự như trong thiết kế thực nghiệm, ta cũng có thể triển khai nhiều biến thể khác nhau của can thiệp, hoặc có nhiều nhóm thực nghiệm. Một lần nữa, có thể cần cung cấp một hình thức giả dược nào đó, mặc dù cần lưu ý rằng trong thực tế, hầu hết các trường đều đang triển khai nhiều chương trình cùng lúc. Do đó, việc tìm một trường học mà “không có gì diễn ra” là rất hiếm, và việc sử dụng giả dược có thể không luôn cần thiết.

Việc lựa chọn công cụ đo lường phù hợp để kiểm định giả thuyết cũng quan trọng không kém so với trong thiết kế thực nghiệm (và như ta sẽ thấy, cũng tương tự trong thiết kế khảo sát). Nếu sử dụng bài kiểm tra hoặc bảng hỏi, cần đảm bảo rằng các điều kiện thực hiện là tương đồng ở cả trường thực nghiệm và trường so sánh, và lý tưởng nhất là có sự hiện diện trực tiếp của nhà nghiên cứu trong quá trình này. Nếu không, sự khác biệt trong điều kiện làm bài có thể ảnh hưởng đến kết quả. Dù sử dụng bất kỳ công cụ đo lường nào, thì chúng phải được giữ nhất quán giữa nhóm thực nghiệm và nhóm so sánh; nếu không, ta không thể nói rằng ta đang so sánh hai nhóm tương đương.

Sau khi đã lựa chọn được bối cảnh thực nghiệm và nhóm đối so sánh, chúng ta cần tiến hành kiểm tra đầu vào (pre-test) ở tất cả các bối cảnh đó. Trong (nghiên cứu) thử nghiệm thuần túy, bước tiếp theo sẽ là “thực hiện thí nghiệm một cách cẩn trọng và nghiêm ngặt”. Tuy nhiên, trong bối cảnh thực tế, việc kiểm soát chặt chẽ toàn bộ quá trình can thiệp như vậy thường là không khả thi, và thậm chí trong một số trường hợp còn không nên áp dụng.

Trong việc triển khai các chương trình can thiệp giáo dục, người ta nhận thấy rằng việc điều chỉnh can thiệp sao cho phù hợp với đặc thù của từng trường, lớp học hoặc khoa sẽ giúp nâng cao hiệu quả của chương trình (Harris, 2001). Do đó, với tư cách là người thiết kế chương trình, chúng ta không nhất thiết phải yêu cầu tất cả các trường thực hiện chương trình theo cách hoàn toàn giống nhau. Thay vào đó, điều cần làm là theo dõi chặt chẽ quá trình thực hiện can thiệp ở từng bối cảnh cụ thể, cũng như xác định rõ các thành phần nội dung của chương trình can thiệp. Để làm được điều này, chúng ta có thể cần sử dụng các phương pháp bổ trợ như khảo sát, quan sát, và các kỹ thuật định tính. Cách tiếp cận này sẽ cho phép vạch ra những thành phần nào của chương trình can thiệp hoạt động hiệu quả hơn, và thành phần nào kém hiệu quả hơn, từ đó giúp cải tiến và nhân rộng chương trình trong tương lai.

Những ngộ nhận phổ biến

  1. Nếu tôi phát hiện ra điều gì đó có hiệu quả trong một thí nghiệm, thì tôi biết nó cũng sẽ hiệu quả trong lớp học.

Mặc dù các thử nghiệm là phương pháp tốt nhất để xác định quan hệ nhân – quả, nhưng các điều kiện nhân tạo trong đó diễn ra khiến rất khó để khẳng định rằng kết quả sẽ dễ dàng áp dụng vào thực tiễn phức tạp của môi trường giáo dục. Điều này cần được kiểm chứng một cách thực nghiệm.

  1. Nhưng nếu tôi thấy điều gì đó hiệu quả trong một thí nghiệm, thì tôi có thể chắc chắn đó là quan hệ nhân quả, đúng không?

Thực ra, bạn có thể chắc chắn hơn so với khi dùng bất kỳ phương pháp nào khác. Tuy nhiên, vẫn có khả năng tồn tại nguyên nhân tiềm ẩn hoặc biến gây nhiễu mà bạn chưa tính đến, hoặc hiệu quả bạn phát hiện ra chỉ là ngẫu nhiên. Do đó, chỉ có việc lặp lại kết quả (replication) mới giúp chúng ta chắc chắn rằng những gì đang tìm thấy thực sự là quan hệ nhân – quả.

  1. Phương pháp thực nghiệm là phương pháp nghiên cứu khoa học duy nhất thật sự.

Đây là một ngộ nhận phổ biến, đặc biệt trong giới hoạch định chính sách. Nó bắt nguồn từ thực tế rằng phương pháp thực nghiệm được sử dụng rộng rãi trong các ngành khoa học tự nhiên và rất phù hợp để giải quyết các vấn đề liên quan đến quan hệ nhân – quả. Tuy nhiên, như đã trình bày ở trên, thí nghiệm không phải lúc nào cũng phù hợp với việc nghiên cứu các hiện tượng xảy ra trong môi trường giáo dục thực tế, vốn phức tạp và đa chiều. Nghiên cứu khoa học trong giáo dục là về việc giải quyết các vấn đề hoặc trả lời câu hỏi một cách nghiêm túc và có hệ thống. Có nhiều câu hỏi khác nhau có thể được đặt ra, và nhiều phương pháp khác nhau có thể được sử dụng để trả lời chúng một cách nghiêm ngặt, bao gồm cả nghiên cứu định lượng không thực nghiệm và phương pháp định tính như nghiên cứu tình huống, dân tộc học và phỏng vấn.

  1. Một nghiên cứu bán thực nghiệm về cơ bản cũng giống như một nghiên cứu thực nghiệm, đúng không?”

Thực ra, có một số điểm khác biệt quan trọng. Thứ nhất, vì chúng ta không phân nhóm người tham gia một cách ngẫu nhiên, nên không thể chắc chắn rằng chúng ta đã kiểm soát được các khác biệt quan trọng giữa các nhóm. Điều này làm cho việc suy luận về quan hệ nhân – quả trở nên kém chắc chắn hơn. Thứ hai, vì can thiệp diễn ra trong môi trường thực tế, nên chúng ta không thể đảm bảo rằng việc triển khai là giống hệt nhau ở mọi nơi – và thực tế, điều đó đôi khi cũng không phải là mong muốn. Cả hai yếu tố trên đồng nghĩa với việc chúng ta cần thu thập nhiều dữ liệu hơn so với các nghiên cứu thực nghiệm thuần túy, để đảm bảo rằng các kết luận được rút ra vẫn rõ ràng và đáng tin cậy.

5. Tóm tắt chương

Trong các thiết kế (nghiên cứu) thực nghiệm, chúng ta thường so sánh hai hoặc nhiều nhóm, trong đó một nhóm (gọi là nhóm thực nghiệm) được nhận can thiệp, còn nhóm kia (gọi là nhóm đối chứng) thì không. Các nghiên cứu thực nghiệm thường sử dụng thiết kế gồm ba bước: kiểm tra trước – can thiệp – kiểm tra sau (pre-test–experiment–post-test). Người tham gia được phân vào các nhóm một cách ngẫu nhiên, điều này giúp giảm thiểu sai lệch. Cả hai nhóm đều được kiểm tra đầu vào bằng một công cụ đo lường phù hợp, sau đó nhóm thực nghiệm sẽ được áp dụng can thiệp một cách chặt chẽ và có kiểm soát, và cuối cùng cả hai nhóm đều được kiểm tra đầu ra. Từ đó, chúng ta có thể phân tích xem liệu kết quả giữa hai nhóm có khác biệt hay không.

Nghiên cứu thực nghiệm được xem là phương pháp tốt nhất để kiểm tra mối quan hệ nhân – quả, vì phương pháp này cho phép chúng ta trả lời ba câu hỏi then chốt cần có đáp án “có” để có thể kết luận rằng một biến gây ra biến kia: (1) Liệu có tồn tại mối quan hệ giữa hai biến hay không?, (2) Biến nguyên nhân có xảy ra trước biến kết quả theo thời gian không?, và (3) Có tồn tại biến gây nhiễu nào khác có thể lý giải mối quan hệ không?

Một vấn đề của nghiên cứu thực nghiệm là nó thường diễn ra trong môi trường nhân tạo (phòng thí nghiệm) – vốn khác xa với sự phức tạp đa chiều của bối cảnh giáo dục thực tế. Vì vậy, chúng ta không thể chắc chắn rằng các phát hiện từ thí nghiệm có thể áp dụng nguyên vẹn vào môi trường học đường thực tế. Ngoài ra, các thí nghiệm cũng khó thực hiện trong ngành giáo dục. Do đó, trong thực tế, chúng ta thường phải chọn “giải pháp tốt thứ hai” để xác định nhân – quả, đó là nghiên cứu bán thực nghiệm (quasi-experiment). Trong nghiên cứu này, thay vì phân nhóm ngẫu nhiên, chúng ta cố gắng ghép nhóm thực nghiệm (thường là một lớp học hoặc trường đang triển khai chương trình can thiệp) với một nhóm so sánh. Nhóm so sánh cần được lựa chọn sao cho giống với nhóm thực nghiệm ở tất cả các yếu tố, ngoại trừ việc không nhận can thiệp – mặc dù việc đạt được sự tương đồng tuyệt đối thường là bất khả thi. Ngoài điểm khác biệt về cách phân nhóm, thiết kế cơ bản của nghiên cứu bán thực nghiệm vẫn giống như nghiên cứu thực nghiệm, tức là bao gồm bước kiểm tra đầu vào, triển khai can thiệp, rồi kiểm tra đầu ra. Tuy nhiên, do không có sự phân nhóm ngẫu nhiên, chúng ta cần phải thu thập càng nhiều dữ liệu càng tốt về những biến số có thể khác biệt giữa nhóm thực nghiệm và nhóm so sánh, vì những khác biệt này có thể ảnh hưởng đến kết quả.

6. Bài tập

  1. Những điểm khác biệt chính giữa nghiên cứu thực nghiệm và bán thực nghiệm là gì?

  2. “Tương quan không ngụ ý quan hệ nhân quả.” Bạn có đồng ý với nhận định này không? Tại sao có hoặc tại sao không?

  3. Nếu thực nghiệm là cách tốt nhất để xác định quan hệ nhân quả, vậy tại sao chúng ta lại cần thực hiện các loại nghiên cứu khác?

  4. Tôi muốn biết liệu dự án cải thiện trường học của mình có đang cải thiện thái độ của học sinh đối với trường học hay không. Bạn có thể thiết kế một nghiên cứu để khảo sát điều này không?

  5. Tôi nhận thấy học sinh của mình có xu hướng hiếu động hơn sau khi uống nước ngọt trong giờ ra chơi. Tôi muốn biết liệu việc tiêu thụ nước ngọt có dẫn đến giảm khả năng tập trung của học sinh ngay sau khi uống hay không. Bạn có thể thiết kế một nghiên cứu để khảo sát điều này không?

  6. Tôi muốn biết liệu động lực của giáo viên có cải thiện kết quả học tập của học sinh, hay chính thành tích cao của học sinh mới tạo động lực cho giáo viên? Có thể xác định điều này không? Nếu có, bạn sẽ làm điều đó như thế nào?

7. Tài liệu nghiên cứu thêm

Một tác phẩm kinh điển về chủ đề này, hiện đã được cập nhật gần đây là Shadish, W. R. và Cook, T. D. (2001), Experimental and quasi-experimental designs for generalised causal inference (Houghton-Mifflin).

Một cuốn sách nhập môn dễ tiếp cận nhưng toàn diện, được viết dành cho ngành khoa học hành vi là Kirk, R. E. (2012), Experimental design (Sage).

Tài liệu tham khảo kinh điển về thiết kế nghiên cứu bán thực nghiệm là Cook, T. D. và Campbell, D. T. (1979), Quasi-experimentation (Houghton-Mifflin).

8. Tài liệu tham khảo

Harris, A. (2001). Departmental improvement and school improvement: A missing link? British Educational Research Journal, 27(4), pp. 477–486.

Mayer, R.E. and Moreno, R.A., 1998. A split-attention effect in multimedia learning: Evidence for dual processing systems in working memory. Journal of Educational Psychology, 90(2), pp.312–320.

Muijs, R. D. (1997). Self, school and media. Leuven, Belgium: Catholic University of Leuven, Department of Communication Science

Lowry, R. (2002). Some basic statistical concepts and methods for the introductory psychology course Part 8. Available at: http://faculty.vassar.edu/lowry/qm8.html

Roediger, H.L. and Karpicke, J.D., 2006. Test-enhanced learning: Taking memory tests improves long-term retention. Psychological Science, 17(3), pp.249–255.

Veenman, S., Bakermans, J., Franzen, Y., & Van Hoof, M. (1996). Implementation effects of a pre-service training course for secondary education teachers. Educational Studies, 22(2), 225–243