Bài 4: Mô tả biến định lượng

I. Mục tiêu buổi học

II. Lý thuyết

Phân loại

  • Liên tục
    • Biến số nhận mọi giá trị mà không bị gián đoạn
    • Ví dụ: Chiều cao (cm): 161.1; 162.3
  • Rời rạc
    • Nhận giá trị nguyên, đếm được, không chia nhỏ hơn
    • Ví dụ: Năm sinh: 1993; 1980

Các chỉ số cơ bản

  • Mean: Trung bình
  • Median: Trung vị (q50)
  • Std. Dev (Standard Deviation) Độ lệch chuẩn : Đo lường mức độ phân tán của dữ liệu xung quanh giá trị trung bình
  • Min: Giá trị nhỏ nhất
  • Max: Giá trị lớn nhất
  • Skewness: cho biết phân phối dữ liệu có lệch sang bên trái hay bên phải so với phân phối chuẩn (đối xứng)
  • Kurtosis: mức độ “nhọn” hay “phẳng” của phân phối so với chuẩn.

III. Mô tả biến định lượng

summarize hoặc sum: Mô tả các thông tin về trung bình, trung vị, nhỏ nhất, lớn nhất,… của biến định lượng

1) Mô tả 1 biến hoặc nhiều biến định lượng

Mô tả 1 biến

  • Mô tả cơ bản

    sum bien_a
  • Mô tả chi tiết

    sum bien_a,d
  • Ví dụ: Mô tả cơ bản và chi tiết Giá bán của xe gia_xe trong Dữ liệu các hãng xe

    sum gia_xe
    sum gia_xe, d

    Mô tả một và nhiều biến

Mô tả nhiều biến

  • Mô tả cơ bản

    sum bien_a bien_b bien_n
  • Ví dụ: Mô tả cơ bản dữ liệu Giá bán của xe gia_xe và Trọng lượng của xe trong_luong trong Dữ liệu các hãng xe

    sum gia_xe trong_luong

    Mo ta nhieu bien

Bài tập

Mô tả bộ dữ liệu

  • Mô tả cơ bản và chi tiết thông tin Chiều dài tổng thể của xe
  • Mô tả cơ bản thông tin Giá bán của xe, Chiều dài tổng thể của xe và Số dặm đi được trên mỗi gallon xăng
  • Mức tiêu hao nhiên liệu trung bình của xe là bao nhiêu?

2) Mô tả biến định lượng theo nhóm

Cú pháp

  • bien_a: Biến định lượng
  • bien_c: Biến định tính
tabstat bien_a, by (bien_c) stat (n mean median sd min max)

hoặc

bysort bien_c: sum bien_a
  • Ví dụ: Tính giá bán trung bình của xe ứng với từng mức đánh giá độ tin cậy
tabstat gia_xe, by(do_tin_cay) stat (n mean median sd min max)

4. Mo ta theo nhom

hoặc

bysort do_tin_cay: sum gia_xe

5. Mo ta theo bysort

Bài tập

  1. Tính giá trung bình của xe xuất khẩu và xe trong nước
  2. Tạo một biến mới nhóm mức tiêu hao muc_tieu_hao_nhom phân loại xe thành hai nhóm dựa trên mức tiêu hao nhiên liệu:
    • Dưới 25 mpg –> Gán giá trị 1
    • Từ 25 mpg trở lên –> Gán giá trị 2
  • Gán tên và nhãn giá trị cho nhóm mức tiêu hao
  • Tính giá trung bình của xe với nhóm mức độ tiêu hao
  1. So sánh mức tiêu hao trung bình giữa xe nhập khẩu và trong nước.

3) Mô tả biến định lượng với điều kiện if

Cú pháp

sum bien_a if điều kiện
  • Ví dụ:

    • Tính giá trung bình của những chiếc xe chạy được hơn 25 dặm cho một gallon

      sum price if mpg>25
    • Tính giá trung bình của những chiếc xe chạy từ 25 dặm cho một gallon trở xuống

      sum price if mpg<=25

Bài tập về nhà buổi 4

  • Nhập bộ Dữ liệu đầu tư của 10 công ty công nghiệp lớn tại Hoa Kỳ trong 20 năm (1935–1954) vào STATA bằng câu lệnh:

    webuse grunfeld, clear

6. BTVN

Bài 1: Tính giá trị trung bình, độ lệch chuẩn, giá trị nhỏ nhất, giá trị lớn nhất của các biến invest, value, và capital.

Bài 2: Mô tả đầu tư trung bình hàng năm theo công ty

Bài 3: Mô tả giá trị thị trường theo giai đoạn:

  • Giai đoạn 1: 1930 - 1939
  • Giai đoạn 2: 1940 - 1949
  • Giai đoạn 3: Từ 1950 trở lên

Bài 4: So sánh vốn cố định giữa công ty 1 và công ty 2

Đặt tên Do-file “Dofile - Tên học viên - BTVN số 4” và gửi tại đây. Bấm vào đây.