Ví Dụ
Phân phối chuẩn: biểu đồ histogram có dạng hình chuông. Giá trị trung vị ~ giá trị trung bình
Độ lệch: Thể hiện sự phân bố của dữ liệu trong 1 biến
Độ nhọn phân bố dữ liệu:
Bước 1: Xây dựng giả thiết H₀ (khác biệt hoặc không khác biệt)
Bước 2: Chọn phép kiểm định phù hợp
Bước 3: Xác định phân bố biến định lượng giữa các phân nhóm
Bước 4: Tính giá trị p (p-value)
Bước 5: Kết luận dựa vào giá trị p và kết luận giả thuyết H₀
Biến phụ thuộc | Định lượng | Nhị phân | Thứ tự | Định danh |
---|---|---|---|---|
Định lượng | Pearson; Hồi quy tuyến tính | T-test, Wilcoxon Ranksum | Pearson; Hồi quy tuyến tính | ANOVA; Kruskal wallis |
Nhị phân | Hồi quy logistic | Chi-square; Fisher exact | Chi-square, Fisher exact | Chi-square; Fisher exact |
Thứ tự | Hồi quy logistic | Chi-square, Wilcoxon | Chi-square; Kruskal Wallis | Chi-square; Kruskal Wallis |
Định danh | Hồi quy logistic | Chi-square; Fisher exact | Chi-square; Fisher exact | Chi-square; Fisher exact |
Mục đích: Xác định phân bố dữ liệu của biến định lượng giữa các phân nhóm là phân bố chuẩn hay không chuẩn
Cú pháp :
swilk bien_dinhluong if bien_dinhtinh == giatri_1
swilk bien_dinhluong if bien_dinhtinh == giatri_2
Quy tắc quyết định phân bố của biến định lượng
Cú pháp :
swilk luong if tung_tot_nghiep_dai_hoc ==0
swilk luong if tung_tot_nghiep_dai_hoc ==1
Kết quả từ STATA:
. swilk luong if tung_tot_nghiep_dai_hoc ==0
Shapiro–Wilk W test for normal data
Variable | Obs W V z Prob>z
-------------+------------------------------------------------------
luong | 1,714 0.62957 381.762 15.036 0.00000
. swilk luong if tung_tot_nghiep_dai_hoc ==1
Shapiro–Wilk W test for normal data
Variable | Obs W V z Prob>z
-------------+------------------------------------------------------
luong | 532 0.82430 62.506 9.968 0.00000
Diễn giải kết quả: p-value < 0.05 -> Phân bố không chuẩn
tuoi
giữa các nhóm chủng tộc
chungtoc
và kết luậnluong
giữa các nhóm nghề nghiệp
nghe_nghiep_new
và kết luận
Giả thuyết
H₀: μ₁ = μ₂ (trung bình giá trị biến định lượng giữa các nhóm bằng nhau)
H₁: μ₁ ≠ μ₂ (trung bình giá trị biến định lượng giữa các nhóm khác nhau)
Quy tắc quyết định
p-value > 0.05 → Không bác bỏ giả thiết H₀
p-value ≤ 0.05 → Từ chối giả thiết H₀, chấp nhận giả thiết H₁
Sử dụng khi biến phụ thuộc là biến định lượng có phân phối không chuẩn
Dùng để đánh giá mối liên hệ giữa biến phụ thuộc là biến định lượng và biến độc lập là nhị phân
Cú pháp
ranksum bien_phuthuoc, by(bien_doclap)
Đề bài: Trung bình lương theo giờ giữa nhóm tốt nghiệp ĐH và không tốt nghiệp đại học có khác nhau không?
Biến lương theo giờ luong
có phân bố không
chuẩn
Giả thuyết
H₀: μ₁ = μ₂ (trung bình lương theo giờ hai nhóm bằng nhau)
H₁: μ₁ ≠ μ₂ (trung bình lương theo giờ nhóm khác nhau)
Cú pháp :
ranksum luong, by(tung_tot_nghiep_dai_hoc)
Kết quả từ STATA
Two-sample Wilcoxon rank-sum (Mann–Whitney) test
tung_tot_n~c | Obs Rank sum Expected
-------------+---------------------------------
Not college | 1714 1711902.5 1925679
College grad | 532 811478.5 597702
-------------+---------------------------------
Combined | 2246 2523381 2523381
Unadjusted variance 1.707e+08
Adjustment for ties -5000.3378
----------
Adjusted variance 1.707e+08
H0: luong(tung_t~c==Not college grad) = luong(tung_t~c==College grad)
z = -16.360
Prob > |z| = 0.0000
Diễn giải kết quả
p < 0.05
-> Trung bình lương theo giờ giữa 2 nhóm
tốt nghiệp ĐH và không tốt nghiệp ĐH khác nhauCú pháp
sdtest bien_phuthuoc bien_doclap
Diễn giải kết quả
p > 0.05 -> Phương sai đồng nhất -> Thực hiện t-test
p <= 0.05 -> Phương sai không đồng nhất -> Thực hiện Welch’s t-test
Cú pháp
Phương sai đồng nhất -> Thực hiện t-test
ttest bien_phuthuoc, by(bien_doclap)
hoặc
Phương sai không đồng nhất -> Thực hiện Welch’s t-test
ttest bien_phuthuoc, by(bien_doclap) welch
Diễn giá kết quả
p > 0.05
-> Không có sự khác biệt về giá trị
định lượng giữa các nhóm
p <= 0.05
-> Có sự khác biệt về giá giá trị
định lượng giữa các nhóm
Đề bài:Trung bình lương theo giờ luong
và giữa nhóm tốt nghiệp ĐH và không tốt nghiệp ĐH
tung_tot_nghiep_dai_hoc
có khác nhau không?
Giả định: Biến lương theo giờ luong
có phân bố
chuẩn
1) Xác định phương sai giữa 2 nhóm
Cú pháp
sdtest luong tung_tot_nghiep_dai_hoc
Diễn giải kết quả
p > 0.05
-> Phương sai đồng nhất -> Thực
hiện t-test
p <= 0.05
-> Phương sai không đồng nhất ->
Thực hiện Welch’s t-test
2) Thực hiện t-test
Cú pháp
Phương sai đồng nhất -> Thực hiện t-test
ttest luong, by(tung_tot_nghiep_dai_hoc)
hoặc
Phương sai không đồng nhất -> Thực hiện Welch’s t-test
ttest luong, by(tung_tot_nghiep_dai_hoc) welch
Diễn giá kết quả
p > 0.05
-> Không có sự khác biệt về lương
theo giờ giữa 2 nhóm tốt nghiệp ĐH và không tốt nghiệp ĐH
p <= 0.05
-> Có sự khác biệt về lương theo giờ
giữa 2 nhóm tốt nghiệp ĐH và không tốt nghiệp ĐH
Giả thuyết
H₀: μ₁ = μ₂ (trung bình giá trị biến định lượng giữa các nhóm bằng nhau)
H₁: μ₁ ≠ μ₂ (trung bình giá trị biến định lượng giữa các nhóm khác nhau)
Quy tắc quyết định
p-value > 0.05 → Không bác bỏ giả thiết H₀
p-value ≤ 0.05 → Từ chối giả thiết H₀, chấp nhận giả thiết H₁
Cú pháp
kwallis bien_phuthuoc, by(bien_doclap)
Đề bài: Trung bình của lương theo giờ
luong
giữa các nhóm nghề nghiệp
nghe_nghiep_new
có khác nhau không?
Biến lương ở các nhóm nghề nghiệp có phân bố không chuẩn –> cân nhắc dùng Kruskal wallis
Giả thuyết
H₀: Trung bình lương giữa các nhóm nghề nghiệp bằng nhau
H₁: Tồn tại ít nhất một cặp khác biệt về trung bình lương giữa các nhóm nghề nghiệp
Cú pháp
kwallis luong, by(nghe_nghiep_new)
Kết quả từ STATA
Kruskal–Wallis equality-of-populations rank test
+----------------------------------------+
| nghe_nghiep_new | Obs | Rank sum |
|----------------------+-----+-----------|
| Kỹ thuật & Công nghệ | 612 | 677928.00 |
| Quản lý & Kinh Doanh | 990 | 1.17e+06 |
| Dịch vụ chuyên môn | 401 | 364096.50 |
| Dịch vụ & Vận chuyển | 47 | 27049.50 |
| Khác | 187 | 263456.50 |
+----------------------------------------+
chi2(4) = 123.492
Prob = 0.0001
chi2(4) with ties = 123.495
Prob = 0.0001
Diễn giải kết quả - p < 0.05
->
Tồn tại ít nhất một cặp khác biệt về trung bình lương giữa các nhóm nghề
nghiệp
Cú pháp
oneway bien_phuthuoc bien_doclap
Diễn giải kết quả
p > 0.05
-> Phương sai đồng nhất -> Đọc kết
quả p-value (between groups) cho kết quả ANOVA test
p ≤ 0.05
-> Phương sai không đồng nhất -> Thực
hiện Welch ANOVA
##Cài đặt robnova trước (chỉ cần cài đặt 1 lần duy nhất)
ssc install robnova
##Câu lệnh Welch ANOVA
robnova bien_phuthuoc bien_doclap
Diễn giá kết quả
p > 0.05
-> Không có sự khác biệt về trung
bình lương theo giờ giữa các nhóm
p ≤ 0.05
-> Có sự khác biệt về trung bình lương
theo giờ giữa ít nhất 1 cặp nhóm nghề nghiệp
Đề bài: Có sự khác biệt về trung bình số năm kinh
nghiệm nam_kinh_nghiem
giữa các nhóm nghề nghiệp
nghe_nghiep_new
không?
Số năm kinh nghiệm có phân phối chuẩn ở các nhóm nghề nghiệp
Cú pháp
oneway nam_kinh_nghiem nghe_nghiep_new
Kết quả
Analysis of variance
Source SS df MS F Prob > F
------------------------------------------------------------------------
Between groups 984.05399 4 246.013498 11.88 0.0000
Within groups 46215.3686 2232 20.7058103
------------------------------------------------------------------------
Total 47199.4226 2236 21.1088652
Bartlett's equal-variances test: chi2(4) = 10.7455 Prob>chi2 = 0.030
Diễn giải kết quả
1) Đọc kết quả Bartlett’s test
p > 0.05
–> Phương sai đồng nhất –> Đọc kết
quả p-value(between groups) cho kết quả ANOVA testhoặc
p ≤ 0.05
–> Phương sai không đồng nhất –> Thực
hiện Welch ANOVA
robnova nam_kinh_nghiem nghe_nghiep_new
Kết quả Welch ANOVA
Outcome variable was nam_kinh_nghiem and predictor variable was nghe_nghiep_new
Sum of Squares Model = 984.0540
Sum of Squares Residual = 46215.3686
Sum of Squares Total = 47199.4226
R-squared = 0.020849
-------------------------------------------------------------
Test | F df1 df2 p
-----------------+-------------------------------------------
Brown-Forsythe's | 12.0360 4 517.0810 0.0000
Fisher's | 11.8814 4 2232.0000 0.0000
Welch's | 11.5256 4 284.4852 0.0000
-------------------------------------------------------------
Total number of observations used was 2,237.
Diễn giá kết quả Welch ANOVA
p > 0.05
-> Không có sự khác biệt về trung
bình năm kinh nghiệm giữa các nhóm ngành nghề
p ≤ 0.05
-> Có sự khác biệt về trung bình năm
kinh nghiệm giữa ít nhất 1 cặp nhóm ngành nghề
Import file dữ liệu data_nlsw.dta
Bài 1: So sánh lương theo giờ luong
theo tình trạng
hôn nhân tinh_trang_hon_nhan
Bài 2: So sánh số năm kinh nghiệm nam_kinh_nghiem
theo nghề nghiệp nghe_nghiep_new
Cú pháp
regress bien_phuthuoc i.bien_doclap
Để thực hiện, chúng ta cần sử dụng tuỳ chọn
i.bien_doclap
trong câu lệnh regress trên STATA đế STATA tự
động tạo các biến dummy từ biến định danh và chọn nhóm đầu tiên làm nhóm
tham chiếu.
Đề bài: So sánh lương giữa từng nhóm nghề nghiệp với nhóm kỹ thuật và công nghệ
Câu lệnh regress đế STATA tự động tạo các biến dummy từ biến định danh và tự chọn nhóm tham chiếu là nhóm đầu tiên (kỹ thuật và công nghệ) làm nhóm tham chiếu.
Cú pháp
regress luong i.nghe_nghiep_new
Kết quả
Source | SS df MS Number of obs = 2,237
-------------+---------------------------------- F(4, 2232) = 11.29
Model | 1472.16038 4 368.040095 Prob > F = 0.0000
Residual | 72747.9875 2,232 32.5931844 R-squared = 0.0198
-------------+---------------------------------- Adj R-squared = 0.0181
Total | 74220.1479 2,236 33.1932683 Root MSE = 5.709
---------------------------------------------------------------------------------------
luong | Coefficient Std. err. t P>|t| [95% conf. interval]
----------------------+----------------------------------------------------------------
nghe_nghiep_new |
Quản lý & Kinh Doanh | .2607071 .293563 0.89 0.375 -.314978 .8363922
Dịch vụ chuyên môn | -1.312361 .3667923 -3.58 0.000 -2.031651 -.5930717
Dịch vụ & Vận chuyển | -3.503953 .8641347 -4.05 0.000 -5.198544 -1.809361
Khác | .9437661 .477024 1.98 0.048 .0083088 1.879223
|
_cons | 7.892528 .2307744 34.20 0.000 7.439973 8.345083
---------------------------------------------------------------------------------------
Phiên giải kết quả
Nhóm quản lý và kinh doanh có lương cao hơn nhóm kỹ thuật và công nghệ 26 cent(coeff = 0.2607).Tuy nhiên, sự khác biệt này không có ý nghĩa thống kê(p-value>0.05)
Nhóm dịch vụ chuyên môn có lương thấp hơn nhóm kĩ thuật và công nghệ 1,31 đô la (coeff= -1.31).Sự khác biệt này có ý nghĩa thống kê (p<0.05)
Nhóm dịch vụ và vận chuyển có lương thấp hơn nhóm kĩ thuật và công nghệ 3,50 đô la (coeff= -3.50).Sự khác biệt này có ý nghĩa thống kê (p<0.05)
Lưu ý: Có thể thay đổi nhóm tham chiếu để so sánh bằng cách thay đổi câu lệnh như theo giá trị của từng nhóm trong biến độc lập như sau Ví dụ: (1) Kỹ thuật và công nghệ; (2) Quản lý và kinh doanh; (3) Dịch vụ chuyên môn; (4) Dịch vụ và vận chuyển; (5) Khác
Câu lệnh
regress luong ib1.nghe_nghiep_new //Tương tự với câu lệnh dùng i.nghe_nghiep_new
regress luong ib2.nghe_nghiep_new //Quản lý và kinh doanh sẽ là nhóm tham chiếu
regress luong ib3.nghe_nghiep_new //Dịch vụ chuyên môn là nhóm tham chiếu
Mục đích Xác định mối tương quan giữa biến phụ thuộc là định lượng và biến độc lập là định lượng
Cú Pháp
pwcorr bienphuthuoc_dinhluong biendoclap_dinhluong, sig star(5)
Diễn giải kết quả: Hệ số tương quan r
dao động từ -1 đến 1
r < 0: Tương quan nghịch
r > 0: Tương quan thuận
0.1 ≤ r ≤ 0.3: Tương quan yếu
0.3 ≤ r ≤ 0.5: Tương quan trung bình/vừa
≥ 0.5: Tương quan mạnh
Mô hình hóa mối quan hệ tuyến tính: y = β₀ + β₁x + ε
Mục đích Kiểm định mối liên hệ giữa biến phụ thuộc định lượng và biến độc lập định lượng
Giả thuyết
H₀: μ₁ = μ₂ (Không có mối liên quan có ý nghĩa thống kê giữa 2 biến)
H₁: μ₁ ≠ μ₂ (Có mối liên quan có ý nghĩa thống kê giữa 2 biến)
Cú pháp
regress bienphuthuoc_dinhluong biendoclap_dinhluong
Đề bài: Đánh giá mối tương quan giữa biến phụ thuộc là “lương theo giờ” và biến độc lập là “Năm kinh nghiệm”
1) Xác định hệ số tương quan
Cú Pháp
pwcorr luong nam_kinh_nghiem, sig star(5)
Kết quả hệ số tương quan
| luong nam_ki~m
-------------+------------------
luong | 1.0000
|
|
nam_kinh_n~m | 0.2655* 1.0000
| 0.0000
Hệ số tương quan giữa lương và năm kinh nghiệm là r = 0.2655 cho thấy tương quan thuận giữa 2 yếu tố này. p-value < 0.001 -> Hệ số r thực sự khác 0
Để hiểu rõ hơn về mối tương quan này, chúng ta sẽ thực hiện hồi quy tuyến tính.
2) Hồi quy tuyến tính
Cú pháp
logistic luong nam_kinh_nghiem
Kết quả Hồi quy tuyến tính
Source | SS df MS Number of obs = 2,246
-------------+---------------------------------- F(1, 2244) = 170.14
Model | 5241.29609 1 5241.29609 Prob > F = 0.0000
Residual | 69126.6713 2,244 30.805112 R-squared = 0.0705
-------------+---------------------------------- Adj R-squared = 0.0701
Total | 74367.9674 2,245 33.1260434 Root MSE = 5.5502
---------------------------------------------------------------------------------
luong | Coefficient Std. err. t P>|t| [95% conf. interval]
----------------+----------------------------------------------------------------
nam_kinh_nghiem | .3314291 .0254087 13.04 0.000 .2816021 .3812562
_cons | 3.612492 .3393469 10.65 0.000 2.947026 4.277959
---------------------------------------------------------------------------------
Diễn giải kết quả
Coefficient = 0.3314291 ~ Tăng 33 cent
p-value: 0.000 < 0.05
Kết luận: Mỗi 1 năm kinh nghiệm tăng lên, lương theo giờ tăng thêm 33cent
Bài | Biến.phụ.thuộc | Biến.độc.lập |
---|---|---|
1 | gio_lam_viec_2tuan | nghe_nghiep_new |
2 | luong | gio_lam_viec_2tuan |
Biến định lượng - Biến nhị phân: Có/không sự khác biệt về trung bình … (theo biến phụ thuộc) giữa 2 nhóm (theo biến độc lập)
Biến định lượng - Biến định danh: Có/không sự khác biệt về trung bình … (theo biến phụ thuộc) giữa … nhóm (theo biến độc lập) (Khi sử dụng ANOVA hoặc Kruskal-Wallis)
Biến định lượng - Biến định tính: Nhóm A lớn/nhỏ hơn nhóm B … đơn vị so với nhóm tham chiếu, và có ý nghĩa thống kê hay không (Nhóm A và B dựa theo biến độc lập) (Khi sử dụng hồi quy tuyến tính)
Biến định lượng - biến định lượng: Mỗi giá trị tăng lên của biến độc lập, biến phụ thuộc tăng/giảm bao nhiêu … đơn vị, và có ý nghĩa thống kê hay không
Bài | Biến.phụ.thuộc | Biến.độc.lập |
---|---|---|
2 | gio_lam_viec_2tuan | nghe_nghiep_new |
3 | luong | gio_lam_viec_2tuan |
4 | nam_kinh_nghiem | song_trong_ttam |
Đặt tên Do-file “Dofile - Tên học viên - BTVN số 7” và gửi tại đây. Bấm vào đây.