BÀI TẬP VỀ NHÀ TUẦN 1

GIẢI THÍCH DỮ LIỆU

Dataset

  • “Parade2005” là 1 tập dữ liệu được thu thập ở Mỹ trong năm 2005 bởi tạp chí Parade. Tập dữ liệu này gồm 130 quan sát và 5 biến

Các biến

earnings

  • Thu nhập cá nhân hàng năm

age

  • Tuổi của người được khảo sát

ender

  • Giới tính của người được khảo sát

state

  • Tiểu bang của người được khảo sát

celebrity

  • Người được khảo sát có phải là người nổi tiếng? (yes/no)

THAO TÁC CƠ BẢN TRÊN DỮ LIỆU

Sử dụng tập dữ liệu “Parade2005”. Và hiển thị 6 quan sát đầu tiên

library(AER)
data("Parade2005")
head(Parade2005)
##   earnings age gender state celebrity
## 1    10000  26   male    ND        no
## 2 10000000  18 female    CA       yes
## 3    85000  39   male    NE        no
## 4    75000  50 female    NC        no
## 5    91500  61   male    DE        no
## 6    49500  39 female    SD        no

Tiến hành tạo dữ liệu bản sao

Pa <- Parade2005
names(Pa) <- c("ThuNhap","Tuoi","GioiTinh","Bang","NoiTieng")

Truy vấn dữ liệu con

ThuNhap <- Pa$ThuNhap
Tuoi <- Pa$Tuoi
GioiTinh <- Pa$GioiTinh
x <- Pa[, c("ThuNhap","Tuoi","GioiTinh")]
str(x)
## 'data.frame':    130 obs. of  3 variables:
##  $ ThuNhap : num  10000 10000000 85000 75000 91500 49500 105000 30000 40000 23000 ...
##  $ Tuoi    : num  26 18 39 50 61 39 31 24 24 45 ...
##  $ GioiTinh: Factor w/ 2 levels "female","male": 2 1 2 1 2 1 1 2 1 2 ...

TRỰC QUAN HÓA DỮ LIỆU

Sử dụng Package :ggplot2”

library(ggplot2)

Đồ thị thể hiện dữ liệu

barplot(ThuNhap, xlab = "", ylab = "Thu Nhập",  main = "Biểu đồ thể hiện dữ liệu của biến Thu Nhập", col = c("red", "green", "blue", "pink", "white"))

barplot(Tuoi, xlab = "", ylab = "Tuổi",  main = "Biểu đồ thể hiện dữ liệu của biến Tuổi", col = c("red", "green", "blue", "pink", "white"))

XỬ LÝ DỮ LIỆU

Lọc dữ liệu

m <- Pa[Pa$GioiTinh=='male' & Pa$ThuNhap > 20000000, ]
str(m)
## 'data.frame':    3 obs. of  5 variables:
##  $ ThuNhap : num  2.1e+07 2.5e+07 4.2e+07
##  $ Tuoi    : num  20 51 28
##  $ GioiTinh: Factor w/ 2 levels "female","male": 2 2 2
##  $ Bang    : Factor w/ 50 levels "AK","AL","AZ",..: 35 9 15
##  $ NoiTieng: Factor w/ 2 levels "no","yes": 2 2 2

Sắp xếp lại dữ liệu

ThuNhaptang = Pa[order(Pa$ThuNhap), ]
head(ThuNhaptang)
##     ThuNhap Tuoi GioiTinh Bang NoiTieng
## 1     10000   26     male   ND       no
## 100   11000   43   female   IN       no
## 21    12000   39   female   MI       no
## 94    12000   27   female   VA       no
## 126   17500   38   female   AK       no
## 118   17900   42   female   VT       no

LẬP BẢNG TẦN SỐ VÀ ĐỒ THỊ MÔ TẢ

Biến Thu Nhập

Bảng tần số

BangThuNhap <- cut(ThuNhap, breaks = c(10000, 50000, 250000, 1000000,10000000, 42000000 ), labels = c("thap", "trungbinh", "trungbinhcao","cao", "ratcao"), right = TRUE)
tabThuNhap=table(BangThuNhap)
tabThuNhap
## BangThuNhap
##         thap    trungbinh trungbinhcao          cao       ratcao 
##           66           51            3            2            7

Giải thích kết quả

  • Phần lớn người được khảo sát thuộc nhóm thu nhập thấp và trung bình (từ 10000$ đến 250000) với tỉlệ rất cao là 90.
  • Trong đó nhóm thu nhập thấp(10000đến50000) chiếm tỉ lệ cao nhất là 50.1%.

Biến Tuổi

Bảng tần số

BangTuoi <- cut(Tuoi, breaks = c(18, 30, 40, 52), labels = c("18-30", "30-40", "40-50"), right = TRUE)
tabTuoi=table(BangTuoi)
tabTuoi
## BangTuoi
## 18-30 30-40 40-50 
##    32    44    33

Giải thích kết quả

  • Phần lớn người được khảo sát thuộc nhóm độ tuổi trung niên (từ 30 đến 45 tuổi) với tỉ lệ cao nhất là 46.2%

BÀI TẬP VỀ NHÀ TUẦN 2

CHỦ ĐỀ PHÂN TÍCH

  • PHÂN TÍCH SỰ TÁC ĐỘNG CỦA BIẾN TUỔI VÀ GIỚI TÍNH LÊN BIẾN THU NHẬP

Mô tả dữ liệu

Dataset

  • “Parade2005” à 1 tập dữ liệu được thu thập ở Mỹ trong năm 2005 bởi tạp chí Parade. Tập dữ liệu này gồm 130 quan sát và 5 biến. Ở chủ đề này, chúng ta sẽ phân tích 3 biến: earnings, age, gender. #### Các biến

  • earnings: thu nhập cá nhân hàng năm

  • age:tuổi của người được khảo sát

  • gender: giới tính của người được khảo sát

Mục tiêu

  • Đánh giá được độ tập trung và phân tán của dữ liệu.
  • Dùng đồ thị để thể hiện tần số của các biến.
  • Kiểm định rằng càng biến có quan hệ phụ thuộc nhau hay không và phân tích quan hệ ấy bằng đồ thị đơn giản.

CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ TẬP TRUNG

Biến Thu Nhập

Trung bình

  • Ý nghĩa: được tính là giá trị trung bình cộng của các giá trị.
mean(ThuNhap)
## [1] 1503412

Trung vị

  • Ý nghĩa: là số nằm ở giữa một nhóm các số; có nghĩa là, phân nửa các số có giá trị lớn hơn số trung vị, còn phân nửa các số có giá trị bé hơn số trung vị.
median(ThuNhap)
## [1] 50000

=> Kết luận:

  • Ta có Mean>Median nên biến Thu Nhập có phân phối lệch phải.

Biến Tuổi

  • Ý nghĩa: được tính là giá trị trung bình cộng của các giá trị.
mean(Tuoi)
## [1] 39.17692

Trung vị

  • Ý nghĩa: là số nằm ở giữa một nhóm các số; có nghĩa là, phân nửa các số có giá trị lớn hơn số trung vị, còn phân nửa các số có giá trị bé hơn số trung vị.
median(Tuoi)
## [1] 38.5

=> Kết luận:

  • Ta có Mean>Median nên biến Thu Nhập có phân phối lệch phải.

CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ PHÂN TÁN

Biến Thu Nhập

Phương sai

  • Ý nghĩa: là số đại diện cho độ phân tán của các số liệu so với giá trị trung bình.
var(ThuNhap)
## [1] 3.49546e+13

Độ lệch chuẩn

  • Ý nghĩa: là số được tính bằng căn hai của phương sai và được thể hiện bằng các đơn vị giống với dữ liệu có sẵn.
sd(ThuNhap)
## [1] 5912241

=> Kết luận:

  • Biến Thu Nhập có độ phân tán dữ liệu lớn (sd gấp hơn 3 lần mean)

Biến Tuổi

Phương sai

  • Ý nghĩa: là số đại diện cho độ phân tán của các số liệu so với giá trị trung bình.
var(Tuoi)
## [1] 122.8909

Độ lệch chuẩn

  • Ý nghĩa: là số được tính bằng căn hai của phương sai và được thể hiện bằng các đơn vị giống với dữ liệu có sẵn.
sd(Tuoi)
## [1] 11.08562

=> Kết luận:

  • Biến Tuổi có độ phân tán thấp (sd chỉ bằng khoảng 1/3 so với mean).

LẬP BẢNG TẦN SỐ VÀ VẼ ĐỒ THỊ GIỮA 2 BIẾN

Lập bảng tần số cho biến Thu Nhập, Tuổi, Giới Tính

tabThuNhap
## BangThuNhap
##         thap    trungbinh trungbinhcao          cao       ratcao 
##           66           51            3            2            7
tabTuoi
## BangTuoi
## 18-30 30-40 40-50 
##    32    44    33
table(GioiTinh)
## GioiTinh
## female   male 
##     62     68

Vẽ đồ thị cho biến Thu Nhập, Tuổi, Giới Tính

barplot(tabThuNhap, xlab = "Thu Nhập", ylab = "Tần số",  main = "Biểu đồ tần số của biến Thu Nhập", col = c("red", "green", "blue", "pink", "white"))

barplot(tabTuoi, xlab = "Tuổi", ylab = "Tần số",  main = "Biểu đồ tần số của Biến Tuổi", col = c("red", "green", "blue"))

tabGioiTinh=table(GioiTinh)
barplot(tabGioiTinh, xlab = "Tuổi", ylab = "Tần số",  main = "Biểu đồ tần số của Biến Tuổi", col = c("red", "green"))

Kiểm định Chi bình phương xác định sự phụ thuộc giữa 2 biến

Biến Thu Nhập và biến Tuổi

  • Trong kiểm định này, chúng ta phải kiểm tra các giá trị p. Hơn nữa, giống như tất cả các thử nghiệm thống kê, chúng tôi giả định thử nghiệm này là giả thuyết H0 và giả thuyết H1.
  • Chúng ta sẽ bác bỏ giả thuyết H0 nếu giá trị p xuất hiện trong kết quả nhỏ hơn mức ý nghĩa xác định trước, thường là 0,05, thì chúng ta bác bỏ giả thuyết H0
chisq.test(ThuNhap, Tuoi, correct=FALSE)
## 
##  Pearson's Chi-squared test
## 
## data:  ThuNhap and Tuoi
## X-squared = 3735.3, df = 3526, p-value = 0.007096
  • Ta có giá trị chi bình phương xấp xỉ 3735 và giá trị p-value xấp xỉ 0.0071. Vì chúng ta nhận được giá trị p nhỏ hơn mức ý nghĩa 0,05, chúng ta bác bỏ giả thuyết H0.
  • Như vậy, biến thu nhập (earnings) và biến tuổi (age) trên thực tế là 2 biến phụ thuộc.
Lập bảng tần số giữa biến Thu Nhập và Tuổi
tabTNT=table(BangThuNhap, BangTuoi)
tabTNT
##               BangTuoi
## BangThuNhap    18-30 30-40 40-50
##   thap            21    25    13
##   trungbinh        5    16    18
##   trungbinhcao     1     0     1
##   cao              1     0     0
##   ratcao           3     3     1
Vẽ đồ thị biến Thu Nhập theo từng nhóm độ tuổi
plot(vearnandage18den30, xlab = "Mức Thu Nhập: Thấp - Tr.Bình - Cao - Rất Cao", ylab = "Tần Số",  main = "Biểu đồ tần số của biến Thu Nhập ở độ tuổi 18 đến 30", col = c("red", "green", "blue","white"))+plot(vearnandage30den45, xlab = "Mức Thu Nhập: Thấp - Tr.Bình - Cao - Rất Cao", ylab = "Tần Số",  main = "Biểu đồ tần số của biến Thu Nhập ở độ tuổi 30 đến 40", col = c("red", "green", "blue","white"))+plot(vearnandage45den52, xlab = "Mức Thu Nhập: Thấp - Tr.Bình - Cao - Rất Cao", ylab = "Tần Số",  main = "Biểu đồ tần số  của biến Thu Nhập ở độ tuổi 40 đến 52", col = c("red", "green", "blue","white"))

## integer(0)
Giải thích kết quả:
  • Nhóm thu nhập thấp từ độ tuổi 18-30 đến độ tuổi 40-52 có xu hướng giảm từ 21 xuống 13 người, trong khi đó nhóm thu nhập trung bình từ độ tuổi 18-30 đến độ tuổi 40-52 có xu hướng tăng từ 5 lên 18 người. Các nhóm thu nhập trung bình cao, cao và rất cao có tần số quá ít để xác định kết xu hướng tăng giảm.
  • Kết luận: biến Tuổi và Thu Nhập có quan hệ tương quan dương khi độ tuổi càng cao thì nhóm thu nhập thấp giảm và thu nhập nhóm trung bình càng tăng.

Biến Thu Nhập và biến Giới Tính

  • Trong kiểm định này, chúng ta phải kiểm tra các giá trị p. Hơn nữa, giống như tất cả các thử nghiệm thống kê, chúng tôi giả định thử nghiệm này là giả thuyết H0 và giả thuyết H1.
  • Chúng ta sẽ bác bỏ giả thuyết H0 nếu giá trị p xuất hiện trong kết quả nhỏ hơn mức ý nghĩa xác định trước, thường là 0,05, thì chúng ta bác bỏ giả thuyết H0
chisq.test(ThuNhap, GioiTinh, correct=FALSE)
## 
##  Pearson's Chi-squared test
## 
## data:  ThuNhap and GioiTinh
## X-squared = 84.78, df = 86, p-value = 0.517
  • Ta có giá trị chi bình phương xấp xỉ 85 và giá trị p-value xấp xỉ 0.517. Vì chúng ta nhận được giá trị p lớn hơn mức ý nghĩa 0,05, chúng ta chấp nhận giả thiết H0.
  • Như vậy, biến Thu Nhập (earnings) và biến Giới Tính (gender) trên thực tế là 2 biến độc lậplập.

BÀI TẬP VỀ NHÀ TUẦN 3

Biên tập dữ liệu

Tách rời dữ liệu

Chiết số liệu từ 1 data.frame

Nhập 2 data.frame thành một

Biến đổi số liệu

Xoay trục dữ liệu

Nối dữ liệu

Loại bỏ trùng lặp

CÁC HÀM PHÂN PHỐI & XÁC SUẤT CỦA QUAN SÁT THUỘC BIẾN

Hàm phân phối nhị phân

  • Ý nghĩa:

  • Giải thích:

Hàm phân phối Poisson

  • Ý nghĩa:

  • Giải thích:

Hàm phân phối chuẩn

  • Ý nghĩa:

  • Giải thích:

Hàm phân phối chuẩn chuẩn hóa

  • Ý nghĩa:

  • Giải thích:

TRỰC QUAN HÓA DỮ LIỆU VÀ PHÂN TÍCH ĐỒ THỊ

Biểu đồ cho 1 biến

ThuNhap

Tuoi

GioiTinh

TieuBang

NoiTieng?

Biểu đồ cho 2 biến

ThuNhap và Tuoi:

ThuNhap và GioiTinh:

ThuNhap và NoiTieng?:

Biểu đồ tán xạ

ThuNhap và Tuoi:

Biểu đồ liên hệ giữa nhiều biến