Bài 7: Các phương pháp kiểm định cơ bản 2

I. Mục Tiêu Buổi Học

  1. Nắm vững thống kê mô tả biến định lượng
  2. Kiểm định biến phụ thuộc là biến định lượng
  3. Thực hành phân tích nhóm và kết quả

II. Định Nghĩa Cơ Bản

Biến Độc Lập và Biến Phụ Thuộc

  • Biến độc lập: Biến có thể thay đổi để xem nó có tác động đến yếu tố khác hay không
  • Biến phụ thuộc: Biến được đánh giá xem thay đổi như thế nào khi ta thay đổi biến độc lập

Ví Dụ

  • Biến độc lập: Năm kinh nghiệm
  • Biến phụ thuộc: Thu nhập mỗi 2 tuần

Phân bố dữ liệu

  1. Phân phối chuẩn: biểu đồ histogram có dạng hình chuông. Giá trị trung vị ~ giá trị trung bình

  2. Độ lệch: Thể hiện sự phân bố của dữ liệu trong 1 biến

    • Positive skew: Đuôi dài về phía bên phải
    • Negative skew: Đuôi dài về phía bên trái
    • Zero skew: Phân bố đối xứng
  3. Độ nhọn phân bố dữ liệu:

    • Lớn hơn 3: Phân phối nhọn,đỉnh cao
    • Bằng 3: Phân phối chuẩn
    • Nhỏ hơn 3: Phân phố bẹt, đỉnh thấp

III. Quy Trình Kiểm Định Biến Định lượng - Biến định tính

  • Biến phụ thuộc: Biến định lượng
  • Biến độc lập: Biến nhị phân/định danh

5 Bước Kiểm Định

  1. Bước 1: Xây dựng giả thiết H₀ (khác biệt hoặc không khác biệt)

    • Ví dụ: Không có sự khác biệt về lương giữa những nhóm nghề nghiệp
  2. Bước 2: Chọn phép kiểm định phù hợp

  3. Bước 3: Xác định phân bố biến định lượng giữa các phân nhóm

  4. Bước 4: Tính giá trị p (p-value)

    • Xác xuất có được dữ liệu quan sát nếu giả thuyết H₀ là đúng
  5. Bước 5: Kết luận dựa vào giá trị p và kết luận giả thuyết H₀

    • Ví dụ: p-value ≤ 0.05 → Bác bỏ giả thuyết H₀
    • → Có sự khác biệt có ý nghĩa thống kê về lương giữa những nhóm nghề nghiệp

Lựa chọn Kiểm Định

Biến độc lập
Biến phụ thuộc Định lượng Nhị phân Thứ tự Định danh
Định lượng Pearson; Hồi quy tuyến tính T-test, Wilcoxon Ranksum Pearson; Hồi quy tuyến tính ANOVA; Kruskal wallis
Nhị phân Hồi quy logistic Chi-square; Fisher exact Chi-square, Fisher exact Chi-square; Fisher exact
Thứ tự Hồi quy logistic Chi-square, Wilcoxon Chi-square; Kruskal Wallis Chi-square; Kruskal Wallis
Định danh Hồi quy logistic Chi-square; Fisher exact Chi-square; Fisher exact Chi-square; Fisher exact

Xác định phân bố biến định lượng giữa các nhóm

Lý thuyết

  • Mục đích: Xác định phân bố dữ liệu của biến định lượng giữa các phân nhóm là phân bố chuẩn hay không chuẩn

  • Cú pháp :

    swilk bien_dinhluong if bien_dinhtinh == giatri_1
    swilk bien_dinhluong if bien_dinhtinh == giatri_2
  • Quy tắc quyết định phân bố của biến định lượng

    • p-value > 0.05 → Phân bố chuẩn
    • p-value ≤ 0.05 → Phân bố không chuẩn

Ví dụ

  • Xác định phân bố lương giữa nhóm đã tốt nghiệp ĐH và không tốt nghiệp ĐH

Cú pháp :

swilk luong if tung_tot_nghiep_dai_hoc ==0
swilk luong if tung_tot_nghiep_dai_hoc ==1

Kết quả từ STATA:

. swilk luong if tung_tot_nghiep_dai_hoc ==0

                   Shapiro–Wilk W test for normal data

    Variable |        Obs       W           V         z       Prob>z
-------------+------------------------------------------------------
       luong |      1,714    0.62957    381.762    15.036    0.00000

. swilk luong if tung_tot_nghiep_dai_hoc ==1

                   Shapiro–Wilk W test for normal data

    Variable |        Obs       W           V         z       Prob>z
-------------+------------------------------------------------------
       luong |        532    0.82430     62.506     9.968    0.00000

Diễn giải kết quả: p-value < 0.05 -> Phân bố không chuẩn

Bài tập thực hành

  • Xác định phân bố tuổi tuoi giữa các nhóm chủng tộc chungtoc và kết luận
  • Xác định phân bố lương luong giữa các nhóm nghề nghiệp nghe_nghiep_new và kết luận

Kiểm Định biến Định lượng và biến nhị phân

Dinhluong - Nhiphan

Giả thuyết

  • H₀: μ₁ = μ₂ (trung bình giá trị biến định lượng giữa các nhóm bằng nhau)

  • H₁: μ₁ ≠ μ₂ (trung bình giá trị biến định lượng giữa các nhóm khác nhau)

Quy tắc quyết định

  • p-value > 0.05 → Không bác bỏ giả thiết H₀

  • p-value ≤ 0.05 → Từ chối giả thiết H₀, chấp nhận giả thiết H₁

1) Kiểm Định Wilcoxon Ranksum

Lý thuyết

  • Sử dụng khi biến phụ thuộc là biến định lượng có phân phối không chuẩn

  • Dùng để đánh giá mối liên hệ giữa biến phụ thuộc là biến định lượng và biến độc lập là nhị phân

  • Cú pháp

    ranksum bien_phuthuoc, by(bien_doclap)

Ví dụ

Đề bài: Trung bình lương theo giờ giữa nhóm tốt nghiệp ĐH và không tốt nghiệp đại học có khác nhau không?

Biến lương theo giờ luong có phân bố không chuẩn

Giả thuyết

  • H₀: μ₁ = μ₂ (trung bình lương theo giờ hai nhóm bằng nhau)

  • H₁: μ₁ ≠ μ₂ (trung bình lương theo giờ nhóm khác nhau)

Cú pháp :

ranksum luong, by(tung_tot_nghiep_dai_hoc)

Kết quả từ STATA

Two-sample Wilcoxon rank-sum (Mann–Whitney) test

tung_tot_n~c |      Obs    Rank sum    Expected
-------------+---------------------------------
Not college  |     1714   1711902.5     1925679
College grad |      532    811478.5      597702
-------------+---------------------------------
    Combined |     2246     2523381     2523381

Unadjusted variance   1.707e+08
Adjustment for ties  -5000.3378
                     ----------
Adjusted variance     1.707e+08

H0: luong(tung_t~c==Not college grad) = luong(tung_t~c==College grad)
         z = -16.360
Prob > |z| =  0.0000

Diễn giải kết quả

  • p < 0.05 -> Trung bình lương theo giờ giữa 2 nhóm tốt nghiệp ĐH và không tốt nghiệp ĐH khác nhau

2) Kiểm Định T-test

Lý thuyết

  • Sử dụng khi biến phụ thuộc là biến định lượng có phân phối chuẩn
  • Dùng để đánh giá mối liên hệ giữa biến phụ thuộc là biến định lượng và biến độc lập là nhị phân

Xác định phương sai giữa 2 nhóm

Cú pháp

sdtest bien_phuthuoc bien_doclap

Diễn giải kết quả

  • p > 0.05 -> Phương sai đồng nhất -> Thực hiện t-test

  • p <= 0.05 -> Phương sai không đồng nhất -> Thực hiện Welch’s t-test

Thực hiện t-test

Cú pháp

  • Phương sai đồng nhất -> Thực hiện t-test

    ttest bien_phuthuoc, by(bien_doclap)

hoặc

  • Phương sai không đồng nhất -> Thực hiện Welch’s t-test

    ttest bien_phuthuoc, by(bien_doclap) welch 

Diễn giá kết quả

  • p > 0.05 -> Không có sự khác biệt về giá trị định lượng giữa các nhóm

  • p <= 0.05 -> Có sự khác biệt về giá giá trị định lượng giữa các nhóm

Ví dụ

Đề bài:Trung bình lương theo giờ luong và giữa nhóm tốt nghiệp ĐH và không tốt nghiệp ĐH tung_tot_nghiep_dai_hoc có khác nhau không?

Giả định: Biến lương theo giờ luong có phân bố chuẩn

1) Xác định phương sai giữa 2 nhóm

Cú pháp

sdtest luong tung_tot_nghiep_dai_hoc

Diễn giải kết quả

  • p > 0.05 -> Phương sai đồng nhất -> Thực hiện t-test

  • p <= 0.05 -> Phương sai không đồng nhất -> Thực hiện Welch’s t-test

2) Thực hiện t-test

Cú pháp

  • Phương sai đồng nhất -> Thực hiện t-test

    ttest luong, by(tung_tot_nghiep_dai_hoc)

hoặc

  • Phương sai không đồng nhất -> Thực hiện Welch’s t-test

    ttest luong, by(tung_tot_nghiep_dai_hoc) welch 

Diễn giá kết quả

  • p > 0.05 -> Không có sự khác biệt về lương theo giờ giữa 2 nhóm tốt nghiệp ĐH và không tốt nghiệp ĐH

  • p <= 0.05 -> Có sự khác biệt về lương theo giờ giữa 2 nhóm tốt nghiệp ĐH và không tốt nghiệp ĐH

Kiểm Định biến định lượng và biến định danh

dinh luong-dinh danh

Giả thuyết

  • H₀: μ₁ = μ₂ (trung bình giá trị biến định lượng giữa các nhóm bằng nhau)

  • H₁: μ₁ ≠ μ₂ (trung bình giá trị biến định lượng giữa các nhóm khác nhau)

Quy tắc quyết định

  • p-value > 0.05 → Không bác bỏ giả thiết H₀

  • p-value ≤ 0.05 → Từ chối giả thiết H₀, chấp nhận giả thiết H₁

1) Kiểm Định Kruskal-Wallis

Lý thuyết

  • Sử dụng khi biến phụ thuộc là biến định lượng có phân phối không chuẩn
  • Dùng để đánh giá mối liên hệ giữa biến phụ thuộc là biến định lượng và biến độc lập là định danh

Cú pháp

kwallis bien_phuthuoc, by(bien_doclap)

Ví dụ

Đề bài: Trung bình của lương theo giờ luong giữa các nhóm nghề nghiệp nghe_nghiep_newcó khác nhau không?

Biến lương ở các nhóm nghề nghiệp có phân bố không chuẩn –> cân nhắc dùng Kruskal wallis

Giả thuyết

  • H₀: Trung bình lương giữa các nhóm nghề nghiệp bằng nhau

  • H₁: Tồn tại ít nhất một cặp khác biệt về trung bình lương giữa các nhóm nghề nghiệp

Cú pháp

kwallis luong, by(nghe_nghiep_new)

Kết quả từ STATA

Kruskal–Wallis equality-of-populations rank test

  +----------------------------------------+
  |      nghe_nghiep_new | Obs |  Rank sum |
  |----------------------+-----+-----------|
  | Kỹ thuật & Công nghệ | 612 | 677928.00 |
  | Quản lý & Kinh Doanh | 990 |  1.17e+06 |
  |   Dịch vụ chuyên môn | 401 | 364096.50 |
  | Dịch vụ & Vận chuyển |  47 |  27049.50 |
  |                 Khác | 187 | 263456.50 |
  +----------------------------------------+

  chi2(4) = 123.492
     Prob =  0.0001

  chi2(4) with ties = 123.495
               Prob =  0.0001

Diễn giải kết quả - p < 0.05 -> Tồn tại ít nhất một cặp khác biệt về trung bình lương giữa các nhóm nghề nghiệp

2) Kiểm Định ANOVA

Lý thuyết

  • Sử dụng khi biến phụ thuộc là biến định lượng có phân phối chuẩn
  • Dùng để đánh giá mối liên hệ giữa biến phụ thuộc là biến định lượng và biến độc lập là định danh –> Xác định phương sai giữa các nhóm bằng phương pháp Bartlett

Xác định phương sai Bartlett’s test và lựa chọn ANOVA

Cú pháp

oneway bien_phuthuoc bien_doclap

Diễn giải kết quả

  • p > 0.05 -> Phương sai đồng nhất -> Đọc kết quả p-value (between groups) cho kết quả ANOVA test

  • p ≤ 0.05 -> Phương sai không đồng nhất -> Thực hiện Welch ANOVA

    ##Cài đặt robnova trước (chỉ cần cài đặt 1 lần duy nhất)
    ssc install robnova
    
    ##Câu lệnh Welch ANOVA
    robnova bien_phuthuoc bien_doclap

Diễn giá kết quả

  • p > 0.05 -> Không có sự khác biệt về trung bình lương theo giờ giữa các nhóm

  • p ≤ 0.05 -> Có sự khác biệt về trung bình lương theo giờ giữa ít nhất 1 cặp nhóm nghề nghiệp

Ví dụ

Đề bài: Có sự khác biệt về trung bình số năm kinh nghiệm nam_kinh_nghiem giữa các nhóm nghề nghiệp nghe_nghiep_new không?

Số năm kinh nghiệm có phân phối chuẩn ở các nhóm nghề nghiệp

Cú pháp

oneway nam_kinh_nghiem nghe_nghiep_new

Kết quả


                        Analysis of variance
    Source              SS         df      MS            F     Prob > F
------------------------------------------------------------------------
Between groups       984.05399      4   246.013498     11.88     0.0000
 Within groups      46215.3686   2232   20.7058103
------------------------------------------------------------------------
    Total           47199.4226   2236   21.1088652

Bartlett's equal-variances test: chi2(4) =  10.7455    Prob>chi2 = 0.030

Diễn giải kết quả

1) Đọc kết quả Bartlett’s test

  • p > 0.05 –> Phương sai đồng nhất –> Đọc kết quả p-value(between groups) cho kết quả ANOVA test

hoặc

  • p ≤ 0.05 –> Phương sai không đồng nhất –> Thực hiện Welch ANOVA

    robnova nam_kinh_nghiem nghe_nghiep_new

    Kết quả Welch ANOVA

Outcome variable was nam_kinh_nghiem and predictor variable was nghe_nghiep_new

Sum of Squares Model = 984.0540
Sum of Squares Residual = 46215.3686
Sum of Squares Total = 47199.4226
R-squared = 0.020849

-------------------------------------------------------------
            Test |     F         df1        df2         p    
-----------------+-------------------------------------------
Brown-Forsythe's |  12.0360       4       517.0810    0.0000 
        Fisher's |  11.8814       4      2232.0000    0.0000 
         Welch's |  11.5256       4       284.4852    0.0000 
-------------------------------------------------------------
Total number of observations used was 2,237.

Diễn giá kết quả Welch ANOVA

  • p > 0.05 -> Không có sự khác biệt về trung bình năm kinh nghiệm giữa các nhóm ngành nghề

  • p ≤ 0.05 -> Có sự khác biệt về trung bình năm kinh nghiệm giữa ít nhất 1 cặp nhóm ngành nghề

Bài tập 1

  • Import file dữ liệu data_nlsw.dta

  • Bài 1: So sánh lương theo giờ luong theo tình trạng hôn nhân tinh_trang_hon_nhan

  • Bài 2: So sánh số năm kinh nghiệm nam_kinh_nghiem theo nghề nghiệp nghe_nghiep_new

Hồi quy tuyến tính trong kiểm định biến định lượng và định tính

Lý thuyết

Cú pháp

regress bien_phuthuoc i.bien_doclap

Để thực hiện, chúng ta cần sử dụng tuỳ chọn i.bien_doclap trong câu lệnh regress trên STATA đế STATA tự động tạo các biến dummy từ biến định danh và chọn nhóm đầu tiên làm nhóm tham chiếu.

Ví dụ

Đề bài: So sánh lương giữa từng nhóm nghề nghiệp với nhóm kỹ thuật và công nghệ

Câu lệnh regress đế STATA tự động tạo các biến dummy từ biến định danh và tự chọn nhóm tham chiếu là nhóm đầu tiên (kỹ thuật và công nghệ) làm nhóm tham chiếu.

Cú pháp

regress luong i.nghe_nghiep_new

Kết quả

      Source |       SS           df       MS      Number of obs   =     2,237
-------------+----------------------------------   F(4, 2232)      =     11.29
       Model |  1472.16038         4  368.040095   Prob > F        =    0.0000
    Residual |  72747.9875     2,232  32.5931844   R-squared       =    0.0198
-------------+----------------------------------   Adj R-squared   =    0.0181
       Total |  74220.1479     2,236  33.1932683   Root MSE        =     5.709

---------------------------------------------------------------------------------------
                luong | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
----------------------+----------------------------------------------------------------
      nghe_nghiep_new |
Quản lý & Kinh Doanh  |   .2607071    .293563     0.89   0.375     -.314978    .8363922
  Dịch vụ chuyên môn  |  -1.312361   .3667923    -3.58   0.000    -2.031651   -.5930717
Dịch vụ & Vận chuyển  |  -3.503953   .8641347    -4.05   0.000    -5.198544   -1.809361
                Khác  |   .9437661    .477024     1.98   0.048     .0083088    1.879223
                      |
                _cons |   7.892528   .2307744    34.20   0.000     7.439973    8.345083
---------------------------------------------------------------------------------------

Phiên giải kết quả

  • Nhóm quản lý và kinh doanh có lương cao hơn nhóm kỹ thuật và công nghệ 26 cent(coeff = 0.2607).Tuy nhiên, sự khác biệt này không có ý nghĩa thống kê(p-value>0.05)

  • Nhóm dịch vụ chuyên môn có lương thấp hơn nhóm kĩ thuật và công nghệ 1,31 đô la (coeff= -1.31).Sự khác biệt này có ý nghĩa thống kê (p<0.05)

  • Nhóm dịch vụ và vận chuyển có lương thấp hơn nhóm kĩ thuật và công nghệ 3,50 đô la (coeff= -3.50).Sự khác biệt này có ý nghĩa thống kê (p<0.05)

Lưu ý: Có thể thay đổi nhóm tham chiếu để so sánh bằng cách thay đổi câu lệnh như theo giá trị của từng nhóm trong biến độc lập như sau Ví dụ: (1) Kỹ thuật và công nghệ; (2) Quản lý và kinh doanh; (3) Dịch vụ chuyên môn; (4) Dịch vụ và vận chuyển; (5) Khác

Câu lệnh

regress luong ib1.nghe_nghiep_new  //Tương tự với câu lệnh dùng i.nghe_nghiep_new
regress luong ib2.nghe_nghiep_new  //Quản lý và kinh doanh sẽ là nhóm tham chiếu
regress luong ib3.nghe_nghiep_new  //Dịch vụ chuyên môn là nhóm tham chiếu

IV.Kiểm định giữa hai biến định lượng

Hệ số tương quan

Mục đích Xác định mối tương quan giữa biến phụ thuộc là định lượng và biến độc lập là định lượng

Cú Pháp

pwcorr bienphuthuoc_dinhluong biendoclap_dinhluong, sig star(5)

Diễn giải kết quả: Hệ số tương quan r dao động từ -1 đến 1

  • r < 0: Tương quan nghịch

  • r > 0: Tương quan thuận

    • 0.1 ≤ r ≤ 0.3: Tương quan yếu

    • 0.3 ≤ r ≤ 0.5: Tương quan trung bình/vừa

    • ≥ 0.5: Tương quan mạnh

Hồi quy tuyến tính đơn giản

Mô hình hóa mối quan hệ tuyến tính: y = β₀ + β₁x + ε

Mục đích Kiểm định mối liên hệ giữa biến phụ thuộc định lượng và biến độc lập định lượng

Giả thuyết

  • H₀: μ₁ = μ₂ (Không có mối liên quan có ý nghĩa thống kê giữa 2 biến)

  • H₁: μ₁ ≠ μ₂ (Có mối liên quan có ý nghĩa thống kê giữa 2 biến)

Cú pháp

regress bienphuthuoc_dinhluong biendoclap_dinhluong

Ví dụ cụ thể

Đề bài: Đánh giá mối tương quan giữa biến phụ thuộc là “lương theo giờ” và biến độc lập là “Năm kinh nghiệm”

1) Xác định hệ số tương quan

Cú Pháp

pwcorr luong nam_kinh_nghiem, sig star(5)

Kết quả hệ số tương quan


             |    luong nam_ki~m
-------------+------------------
       luong |   1.0000 
             |
             |
nam_kinh_n~m |   0.2655*  1.0000 
             |   0.0000

Hệ số tương quan giữa lương và năm kinh nghiệm là r = 0.2655 cho thấy tương quan thuận giữa 2 yếu tố này. p-value < 0.001 -> Hệ số r thực sự khác 0

Để hiểu rõ hơn về mối tương quan này, chúng ta sẽ thực hiện hồi quy tuyến tính.

2) Hồi quy tuyến tính

Cú pháp

logistic luong nam_kinh_nghiem

Kết quả Hồi quy tuyến tính

      Source |       SS           df       MS      Number of obs   =     2,246
-------------+----------------------------------   F(1, 2244)      =    170.14
       Model |  5241.29609         1  5241.29609   Prob > F        =    0.0000
    Residual |  69126.6713     2,244   30.805112   R-squared       =    0.0705
-------------+----------------------------------   Adj R-squared   =    0.0701
       Total |  74367.9674     2,245  33.1260434   Root MSE        =    5.5502

---------------------------------------------------------------------------------
          luong | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
----------------+----------------------------------------------------------------
nam_kinh_nghiem |   .3314291   .0254087    13.04   0.000     .2816021    .3812562
          _cons |   3.612492   .3393469    10.65   0.000     2.947026    4.277959
---------------------------------------------------------------------------------

Diễn giải kết quả

  • Coefficient = 0.3314291 ~ Tăng 33 cent

  • p-value: 0.000 < 0.05

Kết luận: Mỗi 1 năm kinh nghiệm tăng lên, lương theo giờ tăng thêm 33cent

Bài tập 2

Thực hiện kiểm định mối tương quan giữa các cặp biến sau (sử dụng hồi quy tuyến tính)
Bài Biến.phụ.thuộc Biến.độc.lập
1 gio_lam_viec_2tuan nghe_nghiep_new
2 luong gio_lam_viec_2tuan

IV. Phiên giải kết quả

  • Gợi ý phiên giải khi biến định lượng là biến phụ thuộc:
    • Biến định lượng - Biến nhị phân: Có/không sự khác biệt về trung bình … (theo biến phụ thuộc) giữa 2 nhóm (theo biến độc lập)

    • Biến định lượng - Biến định danh: Có/không sự khác biệt về trung bình … (theo biến phụ thuộc) giữa … nhóm (theo biến độc lập) (Khi sử dụng ANOVA hoặc Kruskal-Wallis)

    • Biến định lượng - Biến định tính: Nhóm A lớn/nhỏ hơn nhóm B … đơn vị so với nhóm tham chiếu, và có ý nghĩa thống kê hay không (Nhóm A và B dựa theo biến độc lập) (Khi sử dụng hồi quy tuyến tính)

    • Biến định lượng - biến định lượng: Mỗi giá trị tăng lên của biến độc lập, biến phụ thuộc tăng/giảm bao nhiêu … đơn vị, và có ý nghĩa thống kê hay không

V. Bài tập về nhà buổi 7

Kiểm định với biến phụ thuộc là biến định lượng
Bài Biến.phụ.thuộc Biến.độc.lập
2 gio_lam_viec_2tuan nghe_nghiep_new
3 luong gio_lam_viec_2tuan
4 nam_kinh_nghiem song_trong_ttam

Đặt tên Do-file “Dofile - Tên học viên - BTVN số 7” và gửi tại đây. Bấm vào đây.