I. Mục Tiêu Buổi Học

  1. Nắm vững các bước trực quan hoá dữ liệu
  2. Biết cách hỉnh sửa biểu đồ sao cho phù hợp với mục đích sử dụng
  3. Thực hành trực quan hoá dữ liệu trên STATA

II. Giới thiệu

Mục đích trực quan hoá dữ liệu:

  • Phát hiện nhánh các mẫu và xu hướng trong dữ liệu
  • Truyền tải thông tin hiệu quả
  • Đơn giản hoá việc hiểu dữ liệu phức tạp
  • Phát hiện các giá trị bất thường và các mối quan hệ

Các loại biểu đồ phổ biến

  1. Biểu đồ histogram: Thể hiện phân bổ giá trị của 1 biến định lượng liên tục

  2. Biểu đồ cột (bar chart): Thể hiện sự so sánh các giá trị hoặc tần suất xuất hiện của từng phân nhóm của biến định tính

  3. Biểu đồ tròn (pie chart): Thể hiện sự so sánh theo tỷ lệ phần trăm giữa các phân nhóm của biến định tính

  4. Biểu đồ phân tán (Scatter plot): Thể hiện mối quan hệ giữa 2 biến định lượng

  5. Biểu đồ hộp (box plot): Thể hiện phân phối và phát hiện giá trị ngoại lai của biến định lượng giữa các phân nhóm của biến định tính

Multi chart

III. Biểu đồ Histogram

  • Biểu đồ histogram dùng để hiển thị phân phối của 1 biến định lượng liên tục

  • Câu lệnh đơn giản

    hist <bien_dinhluong>
  • Câu lệnh điều chỉnh số cột, đặt tên trục x và y

    hist bien_dinhluong, bin(so_cot) normal xtitle("Tên tiêu đề trục X") ytitle("Tên tiêu đề trục Y")
  • Ví dụ: Mô tả phân bố lương theo giờ của người tham gia

    hist luong, bin(10) normal xtitle("Lương theo giờ (đô la)") ytitle("Mật độ xác suất") 

    Histogram

III. Biểu đồ cột (Bar chart)

Biểu đồ cột rời

  • Biểu đồ cột dùng để so sánh các giá trị hoặc tần suất xuất hiện của từng phân nhóm của biến định tính

  • Câu lệnh biểu đồ cột

    graph bar (n) <bien_dinhluong>, over(bien_dinhtinh) ytitle("Tên tiêu đề trục Y") blabel(bar)
  • Câu lệnh biểu đồ thanh

    graph hbar (n) <bien_dinhluong>, over(bien_dinhtinh) ytitle("Tên tiêu đề trục Y") blabel(bar, format(%9.xf))
  • Lưu ý:

    • Điền n là count nếu muốn đếm số lượng giá trị
    • Điền n là mean nếu muốn so sánh giá trị trung bình
    • blabel(bar): Số liệu sẽ được hiển thị trên đỉnh của từng cột
    • format(%9.xf): x là số phần thập phân muốn trình bày –> Sử dụng khi biến định lượng là số thập phân
  • Ví dụ 1: So sánh giá trị trung bình về lương giữa từng nhóm nghề nghiệp

Biểu đồ cột

graph bar (mean) luong, over(nghe_nghiep_new) ytitle("Trung bình lương theo giờ (đô la/giờ)") blabel(bar)

Bar_mean1

Biểu đồ thanh

graph hbar (mean) luong, over(nghe_nghiep_new) ytitle("Trung bình lương theo giờ (đô la/giờ)") blabel(bar, format(%9.1f))

Bar_mean2

  • Ví dụ 2: So sánh số lượng người trong từng phân nhóm nghề nghiệp
graph hbar (count) idcode, over(nghe_nghiep_new) ytitle("Số người") blabel(bar)

Bar_count

Biểu đồ cột chồng

  • Sử dụng khi so sánh sự phân bố của các thành phần trong 1 tổng

  • Cú pháp STATA:

    graph hbar (n) idcode, over(bien_dinhtinh1) over(bien_dinhtinh2) percentages stack blabel(bar, format(%9.xf)) asyvars ytitle("Tên tiêu đề trục Y")
  • Ví dụ: So sánh số lượng người sống trong trung tâm thành phố trong mỗi phân nhóm nghề nghiệp

    graph hbar (count) idcode, over( song_trong_ttam ) over(nghe_nghiep_new) percentages stack blabel(bar, format(%9.1f)) asyvars ytitle("Phần trăm số lượng người (%)")

    cotchong

IV. Biểu đồ tròn/ bánh (Pie chart)

  • Biểu đồ tròn thể hiện sự so sánh theo tỷ lệ phần trăm giữa các phân nhóm của biến định tính

  • Cú pháp:

    graph pie, over(bien_dinhtinh) plabel(_all percent)
  • Ví dụ: So sánh về tỷ lệ phần trăm giữa các phân nhóm nghề nghiệp

    graph pie, over(nghe_nghiep_new) plabel(_all percent)

    Pie

IV. Biểu đồ phân tán (Scatter plot)

  • Biểu đồ phân tán thể hiện mối quan hệ giữa 2 biến định lượng
  • Cú pháp STATA
scatter <bien_dinhluong_1> <bien_dinhluong_2> || lfit <bien_dinhluong_1> <bien_dinhluong_2>, xtitle("Tiêu đề cho biến định lượng 2") ytitle("Tiêu đề cho biến định lượng 1")
  • Ví dụ 1: Biểu đồ về mối tương quan giữa lương và năm kinh nghiệm
scatter luong nam_kinh_nghiem || lfit luong nam_kinh_nghiem,  xtitle("Năm kinh nghiệm (năm)") ytitle("Lương theo giờ (Đô la/giờ)")

Scatter_lfit

V. Biểu đồ hộp (Box plot)

  • Biểu đồ hộp thể hiện phân phối và phát hiện giá trị ngoại lai của biến định lượng giữa các phân nhóm của biến định tính
  • Biểu đồ hộp dọc box
graph box <bien_dinhluong> , over(bien_dinhtinh) ytitle("Tiêu đề cho biến định lượng")
  • Biểu đồ hộp ngang hbox
graph hbox <bien_dinhluong> , over(bien_dinhtinh) ytitle("Tiêu đề cho biến định lượng")
  • Ví dụ 1: Biểu đồ về mối tương quan giữa năm kinh nghiệm và phân nhóm nghề nghiệp
graph hbox nam_kinh_nghiem , over(nghe_nghiep_new) ytitle("Năm kinh nghiệm")

hbox

VI. Hướng dẫn thay đổi màu sắc biểu đồ

Thay đổi màu trong biểu đồ histogram

histogram luong, bin(10) color(blue) fcolor(ltblue) xtitle("Lương theo giờ (đô la)") ytitle("Mật độ xác suất") 

fcolor() để thay đổi màu trong lòng cột
color() để thay đổi màu viền cột

hist

Thay đổi màu trong biểu đồ cột

Ví dụ: So sánh trung bình về lương và năm kinh nghiệm giữa 2 nhóm độc thân và đã kết hôn

graph bar (mean) luong nam_kinh_nghiem, over(tinh_trang_hon_nhan) bar(1, color(blue)) bar(2, color(red)) legend(label(1 "Trung bình lương") label( 2 "Trung bình năm kinh nghiệm")) blabel(bar, format(%9.1f))

Bar2

Thay đổi màu trong biểu đồ tròn

graph pie, over(gioi_tinh) pie(1, color(green)) pie(2, color(red)) plabel(_all percent)

Với mỗi phân nhóm của biến định tính, chúng ta sẽ tạo 1 pie(số từ 1 đến…,color(màu sắc muốn chọn)) cho từng phân nhóm

Pie2

Bài tập

  • Import file dữ liệu data_nlsw.dta

  • Bài 1: Tạo biểu đồ thể hiện phân bố giá trị của biến luong với 15 cột và đặt tiêu đề cho trục x và y

  • Bài 2: Tạo biểu đồ thể hiện trung bình thu nhập theo giờ luong theo từng phân nhóm nghề nghiệp nghe_nghiep_newvà đặt tiêu đề cho trục x và y

V. Bài tập về nhà buổi 7

  • Bài 1: Import file dữ liệu data_nlsw.dta

  • Bài 2: Tạo biểu đồ thể hiện so sánh tỷ lệ phần trăm giữa các phân nhóm nghề nghiệp nghe_nghiep_new

  • Bài 3: Tạo biểu đồ thể hiện trung bình thu nhập theo giờ luong theo từng nhóm đối tượng tốt nghiệp đại học hay không tung_tot_nghiep_dai_hoc và đặt tiêu đề cho trục x và y kèm theo đặt màu xanh cho nhóm “đã từng tốt nghiệp” và màu đỏ cho nhóm “Chưa từng tốt nghiệp đại học”

Đặt tên Do-file “Dofile - Tên học viên - BTVN số 7” và gửi tại đây. Bấm vào đây.