library(AER)
data("Parade2005")
head(Parade2005)## earnings age gender state celebrity
## 1 10000 26 male ND no
## 2 10000000 18 female CA yes
## 3 85000 39 male NE no
## 4 75000 50 female NC no
## 5 91500 61 male DE no
## 6 49500 39 female SD no
Pa <- Parade2005
names(Pa) <- c("ThuNhap","Tuoi","GioiTinh","Bang","NoiTieng")ThuNhap <- Pa$ThuNhap
Tuoi <- Pa$Tuoi
GioiTinh <- Pa$GioiTinh
x <- Pa[, c("ThuNhap","Tuoi","GioiTinh")]
str(x)## 'data.frame': 130 obs. of 3 variables:
## $ ThuNhap : num 10000 10000000 85000 75000 91500 49500 105000 30000 40000 23000 ...
## $ Tuoi : num 26 18 39 50 61 39 31 24 24 45 ...
## $ GioiTinh: Factor w/ 2 levels "female","male": 2 1 2 1 2 1 1 2 1 2 ...
library(ggplot2)barplot(ThuNhap, xlab = "", ylab = "Thu Nhập", main = "Biểu đồ thể hiện dữ liệu của biến Thu Nhập", col = c("red", "green", "blue", "pink", "white"))barplot(Tuoi, xlab = "", ylab = "Tuổi", main = "Biểu đồ thể hiện dữ liệu của biến Tuổi", col = c("red", "green", "blue", "pink", "white"))m <- Pa[Pa$GioiTinh=='male' & Pa$ThuNhap > 20000000, ]
str(m)## 'data.frame': 3 obs. of 5 variables:
## $ ThuNhap : num 2.1e+07 2.5e+07 4.2e+07
## $ Tuoi : num 20 51 28
## $ GioiTinh: Factor w/ 2 levels "female","male": 2 2 2
## $ Bang : Factor w/ 50 levels "AK","AL","AZ",..: 35 9 15
## $ NoiTieng: Factor w/ 2 levels "no","yes": 2 2 2
ThuNhaptang = Pa[order(Pa$ThuNhap), ]
head(ThuNhaptang)## ThuNhap Tuoi GioiTinh Bang NoiTieng
## 1 10000 26 male ND no
## 100 11000 43 female IN no
## 21 12000 39 female MI no
## 94 12000 27 female VA no
## 126 17500 38 female AK no
## 118 17900 42 female VT no
BangThuNhap <- cut(ThuNhap, breaks = c(10000, 50000, 250000, 1000000,10000000, 42000000 ), labels = c("thap", "trungbinh", "trungbinhcao","cao", "ratcao"), right = TRUE)
tabThuNhap=table(BangThuNhap)
tabThuNhap## BangThuNhap
## thap trungbinh trungbinhcao cao ratcao
## 66 51 3 2 7
BangTuoi <- cut(Tuoi, breaks = c(18, 30, 40, 52), labels = c("18-30", "30-40", "40-50"), right = TRUE)
tabTuoi=table(BangTuoi)
tabTuoi## BangTuoi
## 18-30 30-40 40-50
## 32 44 33
“Parade2005” à 1 tập dữ liệu được thu thập ở Mỹ trong năm 2005 bởi tạp chí Parade. Tập dữ liệu này gồm 130 quan sát và 5 biến. Ở chủ đề này, chúng ta sẽ phân tích 3 biến: earnings, age, gender. #### Các biến
earnings: thu nhập cá nhân hàng năm
age:tuổi của người được khảo sát
gender: giới tính của người được khảo sát
mean(ThuNhap)## [1] 1503412
median(ThuNhap)## [1] 50000
mean(Tuoi)## [1] 39.17692
median(Tuoi)## [1] 38.5
var(ThuNhap)## [1] 3.49546e+13
sd(ThuNhap)## [1] 5912241
var(Tuoi)## [1] 122.8909
sd(Tuoi)## [1] 11.08562
tabThuNhap## BangThuNhap
## thap trungbinh trungbinhcao cao ratcao
## 66 51 3 2 7
tabTuoi## BangTuoi
## 18-30 30-40 40-50
## 32 44 33
table(GioiTinh)## GioiTinh
## female male
## 62 68
barplot(tabThuNhap, xlab = "Thu Nhập", ylab = "Tần số", main = "Biểu đồ tần số của biến Thu Nhập", col = c("red", "green", "blue", "pink", "white"))barplot(tabTuoi, xlab = "Tuổi", ylab = "Tần số", main = "Biểu đồ tần số của Biến Tuổi", col = c("red", "green", "blue"))tabGioiTinh=table(GioiTinh)
barplot(tabGioiTinh, xlab = "Tuổi", ylab = "Tần số", main = "Biểu đồ tần số của Biến Tuổi", col = c("red", "green"))chisq.test(ThuNhap, Tuoi, correct=FALSE)##
## Pearson's Chi-squared test
##
## data: ThuNhap and Tuoi
## X-squared = 3735.3, df = 3526, p-value = 0.007096
tabTNT=table(BangThuNhap, BangTuoi)
tabTNT## BangTuoi
## BangThuNhap 18-30 30-40 40-50
## thap 21 25 13
## trungbinh 5 16 18
## trungbinhcao 1 0 1
## cao 1 0 0
## ratcao 3 3 1
plot(vearnandage18den30, xlab = "Mức Thu Nhập: Thấp - Tr.Bình - Cao - Rất Cao", ylab = "Tần Số", main = "Biểu đồ tần số của biến Thu Nhập ở độ tuổi 18 đến 30", col = c("red", "green", "blue","white"))+plot(vearnandage30den45, xlab = "Mức Thu Nhập: Thấp - Tr.Bình - Cao - Rất Cao", ylab = "Tần Số", main = "Biểu đồ tần số của biến Thu Nhập ở độ tuổi 30 đến 40", col = c("red", "green", "blue","white"))+plot(vearnandage45den52, xlab = "Mức Thu Nhập: Thấp - Tr.Bình - Cao - Rất Cao", ylab = "Tần Số", main = "Biểu đồ tần số của biến Thu Nhập ở độ tuổi 40 đến 52", col = c("red", "green", "blue","white"))## integer(0)
chisq.test(ThuNhap, GioiTinh, correct=FALSE)##
## Pearson's Chi-squared test
##
## data: ThuNhap and GioiTinh
## X-squared = 84.78, df = 86, p-value = 0.517
Ý nghĩa:
Giải thích:
Ý nghĩa:
Giải thích:
Ý nghĩa:
Giải thích:
Ý nghĩa:
Giải thích: