Chương 2 tập trung trình bày quy trình sàng lọc dữ liệu (Data Screening) nhằm phát hiện và xử lý các vấn đề có thể ảnh hưởng đến quá trình phân tích. Sau khi dữ liệu được xử lý, bước tiếp theo là đánh giá độ tin cậy (Reliability) của các biến quan sát trong từng khái niệm tiềm ẩn. Tiếp đó, chương sẽ phân tích về khái niệm bậc tự do (Degrees of Freedom) trong mô hình và vai trò của nó trong việc xác định tính khả thi của cấu trúc mô hình. Phần cuối chương đề cập đến yêu cầu về cỡ mẫu (Sample Size) trong mô hình SEM, đồng thời giới thiệu khái quát về các loại tính hợp lệ (validity) cần được kiểm tra để đảm bảo độ tin cậy cho các kết luận nghiên cứu.

Sàng lọc dữ liệu

Vấn đề yea-saying problem

Trước khi tiến hành phân tích mô hình SEM, bước quan trọng đầu tiên là thực hiện sàng lọc dữ liệu trong R để đảm bảo tính chính xác và độ tin cậy. Cần kiểm tra xem dữ liệu có lỗi nhập liệu, giá trị ngoại lai hoặc các trường hợp trả lời khảo sát không nghiêm túc hay không. Đồng thời, cần đánh giá mức độ dữ liệu bị thiếu để quyết định cách xử lý phù hợp.

Sau khi nhập dữ liệu vào R, nên tạo một cột “ID” ở vị trí đầu tiên, đánh số thứ tự tăng dần từ 1 đến số quan sát cuối cùng. Cột này giúp dễ dàng tìm kiếm và đối chiếu một trường hợp cụ thể, đặc biệt hữu ích khi dữ liệu đã được sắp xếp lại theo các biến khác. Tiếp theo, cần kiểm tra hiện tượng bỏ khảo sát giữa chừng. Trong R, có thể thực hiện bằng cách sắp xếp các cột cuối theo thứ tự tăng dần để nhanh chóng phát hiện các dòng dữ liệu chưa hoàn thành. Sau đó, dựa trên tỷ lệ dữ liệu bị thiếu, quyết định giữ lại hay loại bỏ những trường hợp này. Nếu phần dữ liệu thiếu vượt quá ngưỡng chấp nhận (sẽ được quy định rõ trong phân tích), việc loại bỏ là cần thiết để tránh ảnh hưởng kết quả.

Ngoài dữ liệu thiếu, cũng cần chú ý đến hành vi trả lời không nghiêm túc. Ví dụ, với bảng hỏi sử dụng thang đo Likert, nếu một người tham gia chọn cùng một đáp án cho tất cả câu hỏi, khả năng cao họ không đọc kỹ nội dung. Đây là hiện tượng yea-saying problem và nên loại bỏ khỏi tập dữ liệu.

Một biện pháp bổ sung để phát hiện hành vi này là sử dụng câu hỏi kiểm tra sự chú ý, yêu cầu người trả lời chọn một giá trị cụ thể trong thang đo. Nếu họ trả lời sai, có thể coi đó là dấu hiệu thiếu tập trung và cần xem xét loại bỏ khỏi phân tích.

Trong R, một cách hiệu quả để phát hiện hành vi trả lời không nghiêm túc là tính độ lệch chuẩn (standard deviation) cho từng người trả lời dựa trên các câu hỏi thang Likert. Trước tiên, giữ lại cột “ID” và các biến thang Likert. Sau đó, với mỗi hàng (người trả lời), sử dụng hàm sd() để tính độ lệch chuẩn của các câu trả lời (không bao gồm cột ID). Nếu giá trị này nhỏ hơn 0.25, điều đó cho thấy mức biến thiên gần như bằng không, có thể là dấu hiệu người trả lời chọn cùng một đáp án cho toàn bộ khảo sát. Tuy nhiên, ngưỡng 0.25 không phải quy tắc cứng; quyết định loại bỏ cần dựa vào đặc thù khảo sát, độ dài bảng hỏi và mức độ khó khăn trong việc thu thập mẫu. Trong trường hợp mẫu hiếm hoặc khảo sát ngắn, có thể hạ ngưỡng trước khi xóa dữ liệu để tránh mất thông tin quan trọng. Chúng ta sẽ minh họa điều này bằng cách thực hành với bộ số liệu CustomerDelightData_Master.sav bằng cách sử dụng R như sau:

# Làm sạch môi trường phân tích: 
rm(list = ls())

# Load gói haven: 
library(haven)

# Load dữ liệu bằng hàm read_sav:
read_sav("E:/Project_PLS_SEM/CustomerDelightData_Master.sav") -> customerData

# Load gói dplyr: 
library(dplyr)

# Chỉ lấy các cột biến thuộc về thang đo 
# Likert rồi tính độ lệch chuẩn theo dòng: 

customerData %>% 
  select(adapt1:friendly3) -> dataLikert

dataLikert %>% 
  apply(1, sd) -> rowSD

# Tính số lượng quan sát mà có độ lệnh chuẩn
# theo dòng nhỏ hơn 0.25: 

sum(rowSD < 0.25)

## [1] 0

Kết quả này bằng 0 cho thấy không có hiện tượng yea-saying.

Một dạng hành vi yea-saying khác là thời gian mà người tham gia sử dụng để hoàn thành khảo sát. Nhiều khảo sát trực tuyến cung cấp thông tin về thời điểm bắt đầu và kết thúc của từng người trả lời. Nếu thời gian hoàn thành quá ngắn, điều này có thể là dấu hiệu của hành vi trả lời không trung thực. Ví dụ, với một khảo sát gồm 50 câu hỏi mà người tham gia chỉ mất 57 giây để hoàn tất, thì gần như chắc chắn họ không đọc kỹ câu hỏi và không trả lời một cách hợp lệ. Trường hợp này cũng cần được xem xét để loại bỏ.

Sau khi đánh giá xem một người trả lời cụ thể có vấn đề hay không, bước tiếp theo là sàng lọc các biến quan sát (indicator) để phát hiện lỗi. Chẳng hạn, nếu tôi hỏi khách hàng về mức độ hài lòng đối với trải nghiệm tại một nhà hàng, và cụ thể là nhân viên phục vụ có tạo ra cảm giác hài lòng đó hay không, tôi sẽ đặt ba câu hỏi riêng biệt trên thang đo Likert 7 điểm để ghi nhận cảm nhận của khách hàng. Việc đầu tiên trong sàng lọc dữ liệu là đảm bảo rằng không có câu trả lời nào nằm ngoài khoảng từ 1 đến 7. R codes thực hiện như sau:

# Điểm phản hồi nhỏ nhất của các items: 
dataLikert %>% 
  sapply(min)

##     adapt1     adapt2     adapt3     adapt4     adapt5   delight1   delight2 
##          1          2          1          2          1          4          2 
##   delight3 servicape1 servicape2 servicape3   empathy1   empathy2   empathy3 
##          1          1          1          2          2          2          2 
##   empathy4   empathy5       joy1       joy2       joy3  surprise1  surprise2 
##          2          1          3          3          2          1          1 
## Gratitude1 Gratitude2 Gratitude3 Gratitude4 attencheck     satis1     satis2 
##          2          1          1          1          1          3          3 
##     satis3   tolfail1   tolfail2   tolfail3   tolfail4       WOM1       WOM2 
##          3          2          1          2          1          1          1 
##       WOM3  friendly1  friendly2  friendly3 
##          1          1          1          1

# Điểm phản hồi lớn nhất của các items: 
dataLikert %>% 
  sapply(max)

##     adapt1     adapt2     adapt3     adapt4     adapt5   delight1   delight2 
##          7          7          7          7          7          7          7 
##   delight3 servicape1 servicape2 servicape3   empathy1   empathy2   empathy3 
##          7          7          7          7          7          7          7 
##   empathy4   empathy5       joy1       joy2       joy3  surprise1  surprise2 
##          7          7          7          7          7          7          7 
## Gratitude1 Gratitude2 Gratitude3 Gratitude4 attencheck     satis1     satis2 
##          7          7          7          7          7          7          7 
##     satis3   tolfail1   tolfail2   tolfail3   tolfail4       WOM1       WOM2 
##          7          7          7          7          7          7          7 
##       WOM3  friendly1  friendly2  friendly3 
##          7          7          7          7

Các kết quả này cho thấy với các cột biến thuộc về thang đo Likert, các giá trị phản hồi là hợp lệ vì đều nằm trong khoảng từ 1 đến 7.

Vấn đề dữ liệu thiếu

Dữ liệu trống (Missing data) là tình trạng một hoặc nhiều giá trị trong tập dữ liệu bị thiếu, có thể do người tham gia bỏ qua câu hỏi, lỗi thu thập hoặc nhập liệu. Vấn đề này ảnh hưởng đến độ chính xác và tính hợp lệ của phân tích thống kê, đặc biệt trong các mô hình như SEM. R codes dưới đây kiểm tra xem trong số 177 biến của bộ dữ liệu có cột biến nào có dữ liệu trống hay không:

# Đếm số lượng missing data cho 177 cột biến: 
customerData %>% sapply(function(x) {sum(is.na(x))}) -> missingDataCols 

# Kiểm tra số biến số mà có ít nhất một điểm dữ liệu trống (missing data point): 
sum(missingDataCols > 0)

## [1] 1

Kết quả này cho thấy có 1 côt biến có dữ liệu trống. Chúng ta có thể chỉ ra đó là cột VAR00001 như sau:

# Tên của 177 biến: 
names(customerData) -> tencotbien

# Cột biến có ít nhất một điểm dữ liệu trống:
tencotbien[missingDataCols > 0]

## [1] "VAR00001"

Chúng ta có thể xem quan cột biến này:

customerData %>% 
  select(VAR00001) %>% 
  head()

## # A tibble: 6 × 1
##   VAR00001
##      <dbl>
## 1       NA
## 2       NA
## 3       NA
## 4       NA
## 5       NA
## 6       NA

Trước khi tìm cách xử lý dữ liệu bị thiếu, trước hết cần hiểu nguyên nhân vì sao dữ liệu bị thiếu. Thông thường, dữ liệu bị thiếu được phân loại thành ba nhóm: (1) thiếu hoàn toàn ngẫu nhiên, (2) thiếu ngẫu nhiên có điều kiện, và (3) thiếu không ngẫu nhiên.

Ở nhóm thứ nhất – thiếu hoàn toàn ngẫu nhiên, việc dữ liệu bị bỏ sót không liên quan đến bất kỳ biến nào khác trong nghiên cứu. Ví dụ điển hình là khi một người tham gia khảo sát bỏ qua câu hỏi do vô tình, tức là việc thiếu dữ liệu xảy ra hoàn toàn ngẫu nhiên, không bị tác động bởi biến quan sát nào khác.

Nhóm thứ hai – thiếu ngẫu nhiên có điều kiện – xảy ra khi việc dữ liệu bị thiếu có thể được giải thích bằng các biến khác trong nghiên cứu. Chẳng hạn, nếu trong một khảo sát, nhóm người trẻ tuổi thường bỏ sót câu trả lời nhiều hơn so với nhóm lớn tuổi, thì yếu tố “tuổi” chính là biến giải thích hiện tượng này. Dù trong từng nhóm tuổi, việc thiếu dữ liệu vẫn mang tính ngẫu nhiên, nhưng biến tuổi lại cung cấp thông tin quan trọng về nguyên nhân.

Nhóm cuối cùng – thiếu không ngẫu nhiên – xảy ra khi việc bỏ sót dữ liệu gắn trực tiếp với giá trị của chính biến được hỏi. Ví dụ, người có thu nhập cao thường bỏ qua câu hỏi về thu nhập, hay phụ nữ lớn tuổi tránh trả lời câu hỏi về tuổi tác. Trong trường hợp này, việc thiếu dữ liệu không phải ngẫu nhiên mà phản ánh sự từ chối cung cấp thông tin.

Về cách xử lý dữ liệu bị thiếu, có hai hướng chính: (1) loại bỏ quan sát (listwise/pairwise deletion) và (2) bù dữ liệu (data imputation). Phương pháp loại bỏ ít được khuyến khích vì làm mất nhiều thông tin: chỉ cần một câu hỏi bị bỏ trống thì cả bảng trả lời có thể bị loại khỏi phân tích. Các nghiên cứu trước cho thấy, nếu dùng kỹ thuật bù dữ liệu, có thể xử lý được 20–30% dữ liệu bị thiếu mà vẫn giữ được kết quả ước lượng đáng tin cậy (Hair et al., 2009; Eekhout et al., 2013). Vì vậy, bù dữ liệu thường là lựa chọn tốt hơn trong trường hợp thiếu dữ liệu không quá nghiêm trọng.

Bù dữ liệu có nghĩa là phần mềm sẽ thay thế giá trị bị thiếu bằng một giá trị ước đoán. Phương pháp đơn giản và phổ biến nhất là thay giá trị thiếu bằng giá trị trung bình của biến quan sát. Tuy dễ áp dụng, cách này lại làm giảm phương sai của biến và bỏ qua sự khác biệt cá nhân của người trả lời (Schafer & Graham, 2002). Một cách khác là nội suy tuyến tính, dựa trên giá trị trước và sau khoảng thiếu để ước tính một giá trị nằm giữa. Ngoài ra còn có hồi quy bù dữ liệu, thay thế giá trị thiếu bằng kết quả dự đoán từ một phương trình hồi quy, nhưng phương pháp này có thể làm tăng quá mức mức độ phù hợp của mô hình và phóng đại hệ số tương quan (Little & Rubin, 2002).

Một phương pháp khác được sử dụng rộng rãi là ước lượng hợp lý cực đại đầy đủ (Full Information Maximum Likelihood – FIML). Khác với bù dữ liệu, FIML sử dụng hàm hợp lý dựa trên toàn bộ biến trong nghiên cứu để ước lượng tham số, đồng thời khai thác cả dữ liệu đầy đủ và dữ liệu thiếu trong quá trình tính toán.

Tóm lại, không có một phương pháp duy nhất nào luôn được coi là tối ưu. Nhiều công trình học thuật đã tranh luận về ưu, nhược điểm của từng kỹ thuật. Tuy nhiên, giới nghiên cứu nhìn chung đồng thuận rằng thay thế bằng giá trị trung bình chuỗi (series mean imputation) là lựa chọn kém hiệu quả nhất.

Vấn đề giá trị không hợp lệ (Impermissible Values)

Đôi khi, người tham gia khảo sát nhập sai giá trị hoặc đưa ra câu trả lời không hợp lệ. Để phát hiện những trường hợp này, cần kiểm tra xem các câu trả lời có nằm ngoài khoảng giá trị cho phép hay không. Ví dụ, với thang đo 7 điểm, giá trị hợp lệ phải nằm trong khoảng từ 1 đến 7; bất kỳ giá trị nào nhỏ hơn 1 hoặc lớn hơn 7 đều bị coi là không hợp lệ. Hoặc tuổi của người khảo sát mà lớn hơn 100 có lẽ nên được xem xét lại. Việc kiểm tra giá trị nhỏ nhất và lớn nhất của từng biến quan sát sẽ giúp nhanh chóng phát hiện và xử lý các phản hồi không hợp lệ. Còn đối với biến tuổi thì có thể ngh ngờ rằng những trường hợp báo cáo tuổi lớn hơn 100 là những giá trị không hợp lệ. Việc giữ lại hay bỏ đi các trường hợp này sẽ phụ thuộc vào tình huống của nghiên cứu cụ thể. R codes dưới đây chỉ ra các quan sát mà có tuổi lớn hơn 100 thuộc về ID có giá trị 500:

customerData %>% 
  filter(age >= 100) %>% 
  select(ID, age)

## # A tibble: 1 × 2
##   ID      age
##   <chr> <dbl>
## 1 500     270

Đánh giá độ tin cậy của thang đo

Độ tin cậy Cronbach’s alpha

Sau khi bạn đã tiến hành sàng lọc dữ liệu ở cả cấp độ người trả lời và cấp độ biến quan sát, bước tiếp theo là đánh giá độ tin cậy của các thang đo (hoặc khái niệm). Việc chỉ sử dụng một câu hỏi duy nhất (item, indicator) duy nhất cho một khái niệm có thể thuận tiện, nhưng nó không mang lại sự tin cậy cao về tính hợp lệ của câu trả lời. Nếu người trả lời không hiểu câu hỏi, kết quả đo lường sẽ không còn ý nghĩa. Bằng cách đưa ra nhiều câu hỏi cho cùng một khái niệm, chúng ta có thể kiểm tra được mức độ nhất quán trong câu trả lời. Một nguyên tắc thường được áp dụng là: mỗi khái niệm nên có ít nhất ba chỉ báo để có thể xác định độ tin cậy của thang đo.

Một trong những kỹ thuật phổ biến nhất để đánh giá độ tin cậy của các thang đo là tính Cronbach’s alpha (còn gọi là hệ số alpha) để đánh giá độ tin cậy nội tại (internal consistency) theo công thức sau:

\[\alpha = \frac{K}{K - 1} \left(1 - \frac{\sum_{i=1}^{K} \sigma_i^2}{\sigma_T^2} \right)\]

Trong đó:

\(K\) là số lượng items
\(\sigma_i^2\) là phương sai của item thứ i
\(\sigma_T^2\) là phương sai tổng của tất cả items.

Chỉ số này dao động từ 0 đến 1, trong đó giá trị càng cao thì thang đo càng đáng tin cậy (Table 1):

Table 1: Diễn giải hệ số alpha theo Hair et al., 2010; Field, 2013
Gia_tri_alpha	Danh_gia
≥ 0.90	Rất tốt (Excellent)
0.80 – 0.89	Tốt (Good)
0.70 – 0.79	Chấp nhận được (Acceptable)
0.60 – 0.69	Tạm được (Questionable)
0.50 – 0.59	Kém (Poor)
< 0.50	Không chấp nhận được (Unacceptable)

Theo Nunnally và Bernstein (1994), một thang đo được coi là chấp nhận được nếu Cronbach’s alpha ≥ 0,70. Tuy nhiên điều này không có nghĩa rằng tồn tại một ngưỡng cứng cố định khi đánh giá độ tin cậy của một thang đo hay khái niệm (Hair et al, 2010). Đưới đây là R codes để tính Cronbach alpha cho một thang đo gồm ba items là delight1, delight2 và delight3 (tạm gọi là DELIGHT):

# Tính Cronbach alpha cho một thang đo: 

library(psych)

customerData %>% 
  select(delight1, delight2, delight3) %>% 
  alpha() -> cronbachDelight

print(cronbachDelight)

## 
## Reliability analysis   
## Call: alpha(x = .)
## 
##   raw_alpha std.alpha G6(smc) average_r S/N    ase mean   sd median_r
##        0.9       0.9    0.87      0.76 9.3 0.0076  6.2 0.84     0.77
## 
##     95% confidence boundaries 
##          lower alpha upper
## Feldt     0.88   0.9  0.91
## Duhachek  0.89   0.9  0.91
## 
##  Reliability if an item is dropped:
##          raw_alpha std.alpha G6(smc) average_r S/N alpha se var.r med.r
## delight1      0.87      0.87    0.77      0.77 6.9    0.011    NA  0.77
## delight2      0.82      0.83    0.70      0.70 4.8    0.016    NA  0.70
## delight3      0.88      0.88    0.79      0.79 7.6    0.011    NA  0.79
## 
##  Item statistics 
##            n raw.r std.r r.cor r.drop mean   sd
## delight1 500  0.90  0.91  0.84   0.79  6.3 0.82
## delight2 500  0.94  0.93  0.89   0.85  6.1 0.93
## delight3 500  0.91  0.90  0.82   0.78  6.0 0.99
## 
## Non missing response frequency for each item
##          1 2    3    4    5    6 6.5    7 miss
## delight1 0 0 0.00 0.04 0.09 0.36   0 0.50    0
## delight2 0 0 0.01 0.04 0.17 0.35   0 0.43    0
## delight3 0 0 0.01 0.06 0.19 0.33   0 0.40    0

Tuy vậy, Cronbach’s alpha vẫn tồn tại một số hạn chế cần lưu ý:

Giá trị alpha có thể bị “thổi phồng” khi một khái niệm có quá nhiều items.
Cronbach’s alpha giả định rằng tất cả các items đều có mức ảnh hưởng như nhau.

Độ tin cậy tổng hợp

Một thước đo khác khắc phục điểm yếu trên của Cronbach alpha là độ tin cậy là độ tin cậy tổng hợp (composite reliability), còn được gọi là Raykov’s Rho (ρ). Khác với Cronbach’s alpha vốn giả định rằng các biến quan sát có mức đóng góp tương đương, composite reliability sử dụng trọng số từ hệ số tải nhân tố (factor loadings) thu được qua phân tích nhân tố khẳng định (CFA) để ước lượng độ tin cậy của thang đo. Điều này cho phép xem xét mức độ đóng góp không đồng đều của các chỉ báo đối với khái niệm tiềm ẩn, từ đó mang lại một phép đo chính xác hơn về độ tin cậy nội tại. Cách tính cụ thể của chỉ số này sẽ được trình bày chi tiết hơn ở các phần sau của tài liệu này.

Vấn đề loại bỏ biến quan sát được của thang đo

Việc xóa bỏ một biến quan sát (item) chỉ nên thực hiện khi tồn tại vấn đề rõ ràng. Mặc dù việc loại bỏ một item có thể làm tăng hệ số Cronbach’s alpha, nhưng khi alpha đã vượt ngưỡng 0.70, việc giữ lại thường là lựa chọn thận trọng. Về sau trong tài liệu, các vấn đề liên quan đến tính hợp lệ sẽ được bàn luận thêm để chỉ ra các trường hợp cần loại bỏ biến. Tuy nhiên, việc sử dụng nhiều items giúp tăng độ tin cậy cho người đọc rằng khái niệm đã được đo lường từ nhiều góc độ khác nhau. Về lý thuyết, càng nhiều biến đo thì khả năng đại diện khái niệm càng cao. Dẫu vậy, một số nghiên cứu có xu hướng sử dụng quá nhiều items cho một khái niệm—có trường hợp lên đến hơn 20 biến—gây cảm giác dư thừa và cho thấy thang đo này có thể được tinh giản trong khi vẫn đảm bảo độ chính xác tương đương. Các khái niệm mới phát triển rõ ràng cần số lượng biến nhiều hơn, trong khi các cấu trúc đã được kiểm chứng qua thời gian có thể được đo lường hiệu quả với số lượng biến ít hơn. Mặc dù tối thiểu cần ít nhất ba biến quan sát (items) để tính được hệ số Cronbach’s alpha, nhưng số lượng nên tùy thuộc vào mức độ phức tạp của khái niệm tiềm ẩn.

Độ xác định của mô hình SEM

Trong mô hình SEM, mức độ xác định của mô hình (identification model) là vấn đề cốt lõi, liên quan đến việc liệu có đủ thông tin để ước lượng các tham số trong mô hình hay không. Một mô hình chỉ có thể ước lượng được khi các tham số trong đó có thể được xác định duy nhất dựa trên dữ liệu đầu vào – cụ thể là ma trận hiệp phương sai (covariance matrix).

Một mô hình được gọi là under-identified khi số lượng tham số cần ước lượng nhiều hơn số thông tin quan sát được (tức là số phần tử trong ma trận hiệp phương sai). Ví dụ đơn giản:

\[ X + Y = 5\]

Ở đây, có hai tham số (X và Y) nhưng chỉ một quan sát (10) do vậy không thể tìm ra nghiệm duy nhất. Tương tự trong SEM, nếu bạn có nhiều tham số hơn dữ liệu cung cấp, mô hình sẽ không chạy được và sẽ báo lỗi under-identified. Tuy nhiên trường hợp dưới đây:

\[\begin{cases} X + Y = 5 \\ 2X + Y = 7 \end{cases}\]

Lúc này số tham số bằng số lượng quan sát (hay phương trình) nên có thể giải được X = 2, Y = 3. Tình huống này gọi là just-identified. Trong tình huống này các tiêu chuẩn về độ phù hợp mô hình (như \(R^2\) chẳng hạn) là không có ý nghĩa vì mọi thứ được “gói trọn” trong dữ liệu — mô hình luôn khớp 100%, nên không thể đánh giá giả thuyết hay kiểm định mô hình.

Nếu mô hình của bạn bị under-identified (chưa được xác định), có hai hướng xử lý chính để khắc phục tình trạng này.

Cách thứ nhất là giảm số lượng tham số cần ước lượng trong mô hình. Điều này có thể thực hiện bằng cách loại bỏ một mối quan hệ hiệp phương sai (covariance) hoặc một đường quan hệ nhân quả (structural path) giữa các biến. Việc giảm số tham số giúp đảm bảo rằng lượng thông tin từ dữ liệu là đủ để ước lượng các tham số còn lại một cách duy nhất.
Cách thứ hai là bổ sung thêm các biến ngoại sinh (exogenous variables) – tức là các biến độc lập. Khi thêm biến ngoại sinh, bạn đồng thời làm tăng số phần tử quan sát được trong ma trận hiệp phương sai, từ đó giúp cải thiện vấn đề xác định của mô hình.

Trong thực tế, chúng ta phải ước lượng mô hình over-identified – tức là số quan sát nhiều hơn số tham số cần ước lượng. Điều này cho phép kiểm định xem mô hình có khớp với dữ liệu hay không, thông qua các chỉ số như Chi-square, RMSEA, CFI.

Độ xác định của mô hình SEM (cũng như bất kì mô hình hồi quy tuyến tính nào khác) được đặc trưng bằng bậc tự do (Degrees of Freedom, DF) và được tính bằng:

\[DF = N - K\]

Trong đó:

\(N\) là số lượng phần tử quan sát trong ma trận hiệp phương sai
\(K\) là số lượng tham số cần ước lượng.

Các phần mềm như R (hay AMOS) sẽ tự động tính toán DF khi chạy mô hình SEM. Như vậy căn cứ theo công thức này thì:

Just-identified có DF = 0
Under-identified có df < 0
Over-identified có df > 0.

Kích cỡ mẫu: lớn bao nhiêu thì đủ?

Trong mô hình SEM dựa trên hiệp phương sai (Covariance-based SEM), một trong những giả định quan trọng là kỹ thuật này đòi hỏi cỡ mẫu lớn hơn so với nhiều phương pháp thống kê khác. Lý do là vì các kiểm định được sử dụng trong SEM rất nhạy cảm với kích thước mẫu cũng như mức độ khác biệt trong các ma trận hiệp phương sai.

Về vấn đề này có rất nhiều khuyến nghị khác nhau về cỡ mẫu cần thiết khi áp dụng SEM. Một trong những nguyên tắc phổ biến nhất là “quy tắc 10” của Nunnally và Bernstein (1994), đề xuất rằng nên có ít nhất 10 quan sát cho mỗi item (hay indicator) trong mô hình. Tương tự, Stevens (1996) đề xuất một tiêu chuẩn nghiêm ngặt hơn: 15 trường hợp (cases) cho mỗi item. Một cách tiếp cận khác, mang tính kỹ thuật hơn, được Bentler và Chou (1987) đề xuất, cho rằng nên xác định cỡ mẫu dựa trên số tham số tự do (free parameters) trong mô hình, với ít nhất 5 quan sát cho mỗi tham số được ước lượng, bao gồm cả sai số và các hệ số đường dẫn. Schreiber et al. (2006) thì đưa ra con số 10 quan sát cho mỗi tham số cần ước lượng.

Tuy các hướng dẫn trên khá phổ biến, chúng không hoàn toàn đồng thuận. Gần đây, một quy tắc đơn giản hơn là sử dụng “cỡ mẫu tới hạn” (critical sample size) khoảng 200 quan sát, theo đề xuất của Garver và Mentzer (1999) và Hoelter (1983). Mức mẫu này được cho là đủ để ước lượng ổn định các tham số và đảm bảo độ mạnh thống kê cần thiết để kiểm định mô hình. Tuy nhiên, cỡ mẫu 200 chỉ mang tính định hướng tối thiểu, chưa xét đến vấn đề kiểm soát độ mạnh thống kê (statistical power). Trong thực tế, cỡ mẫu nên được xác định dựa trên quy mô hiệu ứng mà bạn mong muốn phát hiện — nói cách khác, mẫu cần đủ lớn để phát hiện được mối tương quan nhỏ nhất giữa các biến tiềm ẩn mà bạn quan tâm. Đồng thời, cỡ mẫu cũng nên phản ánh độ phức tạp của mô hình, chứ không chỉ dừng lại ở ngưỡng tối thiểu để thực hiện phân tích. Việc tính toán cụ thể cỡ mẫu cần thiết để đạt được độ mạnh thống kê mong muốn, có thể tham khảo các hướng dẫn của Kim (2005) hoặc McQuitty (2004).

Bốn khía cạnh của độ tin cậy

Sau khi đã sàng lọc dữ liệu và đánh giá độ tin cậy của các thang đo, bước tiếp theo là kiểm tra tính hợp lệ của các khái niệm tiềm ẩn (constructs) hoặc các khái niệm. Đây là một yêu cầu thiết yếu nhằm bảo đảm tính chính danh cho các phát hiện nghiên cứu. Trước khi đi vào chi tiết ở phần CFA, chúng ta cần hiểu một cách khái quát về construct validity – tức tính hợp lệ của khái niệm sẽ được nói rõ ngay dưới đây.

Tính hợp lệ nội dung (Content validity). Còn gọi là face validity, đây là mức độ mà các items cấu thành thang đo (hoặc khái niệm) đại diện đúng cho khái niệm cần nghiên cứu. Một cách hình tượng, nó được gọi là “bài kiểm tra bằng mắt” – người nghiên cứu cần trả lời: Liệu những câu hỏi trong bảng khảo sát có thật sự đang đo lường khái niệm tiềm ẩn không? Nếu chỉ có 1–2 item cho một khái niệm (hay thang đo) mới, rất dễ bị nghi ngờ là thang đo này chưa bao phủ đầy đủ nội hàm của khái niệm, từ đó làm suy giảm content validity. Dù là một đánh giá khá cảm tính và bề mặt, nhưng content validity là bước khởi đầu quan trọng trong quá trình xác lập độ hợp lệ của thang đo.

Tính hội tụ (Convergent validity). Đây là mức độ mà các biến quan sát cùng đo lường một khái niệm tiềm ẩn hay thang đo có xu hướng tương quan mạnh với nhau. Nếu các chỉ báo không thể hiện được mối liên hệ nội tại, điều này cho thấy thiếu tính hội tụ, và có khả năng các chỉ báo đang đo những khái niệm (hoặc thang đo) khác nhau dù có vẻ tương tự.

Tính phân biệt (Discriminant validity). Tính phân biệt đề cập đến khả năng phân biệt rõ ràng giữa các khái niệm (hay thang đo) khác nhau. Nếu hai khái niệm có hệ số tương quan quá cao (ví dụ trên 0.80), như giữa “Tốc độ” và “Hiệu quả”, thì rất có thể chúng không thực sự là hai khái niệm/thang đo riêng biệt. Tính phân biệt đảm bảo rằng mỗi khái niệm đều là độc lập và khác biệt so với các khái niệm khác trong mô hình.

Tính dự báo (Predictive validity). Một khái niệm/thang đo được coi là có tính dự báo khi nó có thể tiên đoán được những kết quả mà về lý thuyết thì những kết quả này phải xẩy ra. Đây là minh chứng cuối cùng cho thấy khái niệm có ý nghĩa thực tiễn và giá trị trong mô hình nghiên cứu.

Tổng kết chương

Trước khi tiến hành phân tích mô hình SEM, bước sàng lọc dữ liệu là điều bắt buộc nhằm đảm bảo tính chính xác của kết quả. Các vấn đề phổ biến cần xử lý bao gồm: dữ liệu bị thiếu, hành vi trả lời thiếu trung thực hoặc không hợp lệ, và các giá trị nằm ngoài phạm vi cho phép. Đặc biệt, dữ liệu bị thiếu là hiện tượng thường gặp và được chia thành ba dạng: thiếu hoàn toàn ngẫu nhiên, thiếu ngẫu nhiên, và thiếu không ngẫu nhiên. Để khắc phục, nhà nghiên cứu có thể lựa chọn phương pháp loại bỏ dữ liệu hoặc sử dụng kỹ thuật ước lượng (data imputation) như trung bình chuỗi, nội suy tuyến tính, hoặc hồi quy.

Bên cạnh đó, việc đánh giá độ tin cậy của các thang đo là một bước quan trọng trong đảm bảo chất lượng dữ liệu. Độ tin cậy thể hiện sự nhất quán trong phản hồi của người tham gia đối với các biến quan sát. Công cụ phổ biến nhất để đo lường điều này là hệ số Cronbach’s alpha. Khi giá trị alpha đạt từ 0.70 trở lên, thang đo được xem là đạt mức độ tin cậy chấp nhận được.

Một nguyên tắc trọng yếu khác trong SEM là xác định mô hình (identification model), nhằm đảm bảo rằng có đủ thông tin để ước lượng các tham số trong mô hình. Mức độ xác định của mô hình thường được biểu diễn thông qua khái niệm bậc tự do (degrees of freedom), là hiệu số giữa số phần tử quan sát trong ma trận hiệp phương sai và số tham số cần ước lượng. Một mô hình được gọi là under-identified nếu df < 0, just-identified nếu df = 0, và over-identified nếu df > 0 – đây cũng là tình huống lý tưởng để kiểm định mô hình trong nghiên cứu.

Cuối cùng, do tính chất phức tạp của các phép kiểm định trong SEM, kỹ thuật này yêu cầu cỡ mẫu lớn hơn so với nhiều phương pháp phân tích thống kê khác. Việc xác định cỡ mẫu phù hợp không chỉ dựa trên quy tắc tối thiểu, mà còn phụ thuộc vào mức độ phức tạp của mô hình và độ mạnh thống kê (statistical power) mà nhà nghiên cứu mong muốn đạt được trong phân tích.

Tài liệu tham khảo

Bentler, P.M. & Chou, C.P., 1987. Practical issues in structural modeling. Sociological Methods & Research, 16(1), pp.78–117.

Collier, J.E., 2020. Applied Structural Equation Modeling using AMOS: Basic to Advanced Techniques. Abingdon: Routledge.

Eekhout, I., de Boer, R.M., Twisk, J.W.R., de Vet, H.C.W. & Heymans, M.W., 2013. Missing data: a systematic review of how they are reported and handled. Epidemiology, 23(5), pp.729–732.

Field, A., 2013. Discovering Statistics Using IBM SPSS Statistics. London: Sage.

Garver, M.S. & Mentzer, J.T., 1999. Logistics research methods: Employing structural equation modeling to test for construct validity. Journal of Business Logistics, 20(1), pp.33–57.

Hair, J.F. et al., 2013. Multivariate Data Analysis. Harlow: Pearson Education.

Hair, J.F., Black, W.C., Babin, B.J. & Anderson, R.E., 2009. Multivariate Data Analysis. 7th ed. Upper Saddle River, NJ: Pearson Prentice Hall.

Hair, J.F., Black, W.C., Babin, B.J. & Anderson, R.E., 2010. Multivariate Data Analysis. 7th ed. Upper Saddle River, NJ: Pearson Education.

Hoelter, J.W., 1983. The analysis of covariance structures: Goodness-of-fit indices. Sociological Methods & Research, 11(3), pp.325–344.

Kim, K.H., 2005. The relation among fit indexes, power, and sample size in structural equation modeling. Structural Equation Modeling: A Multidisciplinary Journal, 12(3), pp.368–390.

Little, R.J.A. & Rubin, D.B., 2002. Statistical Analysis with Missing Data. 2nd ed. New York: Wiley.

McQuitty, S., 2004. Statistical power and structural equation models in business research. Journal of Business Research, 57(2), pp.175–183.

Nunnally, J.C. & Bernstein, I.H., 1994. Psychometric Theory. 3rd ed. New York: McGraw-Hill.

Schafer, J.L. & Graham, J.W., 2002. Missing data: our view of the state of the art. Psychological Methods, 7(2), pp.147–177.

Schreiber, J.B., Nora, A., Stage, F.K., Barlow, E.A. & King, J., 2006. Reporting structural equation modeling and confirmatory factor analysis results: A review. The Journal of Educational Research, 99(6), pp.323–338.

Stevens, J.P., 1996. Applied Multivariate Statistics for the Social Sciences. 3rd ed. Mahwah, NJ: Lawrence Erlbaum Associates.

Chương 2: Sàng Lọc Dữ Liệu, Độ Tin Cậy và Hợp Lệ

Applications of SEM in Quantitative Research