BÀI TẬP VỀ NHÀ TUẦN 1

GIẢI THÍCH DỮ LIỆU

Dataset: “Parade2005” là 1 tập dữ liệu được thu thập ở Mỹ trong năm 2005 bởi tạp chí Parade. Tập dữ liệu này gồm 130 quan sát và 5 biến

Các biến:

earnings:

  • Thu nhập cá nhân hàng năm

age:

  • Tuổi của người được khảo sát

ender:

  • Giới tính của người được khảo sát

state:

  • Tiểu bang của người được khảo sát

celebrity:

  • Người được khảo sát có phải là người nổi tiếng? (yes/no)

THAO TÁC CƠ BẢN TRÊN DỮ LIỆU

Sử dụng tập dữ liệu “Parade2005”. Và hiển thị 6 quan sát đầu tiên

library(AER)
## Loading required package: car
## Loading required package: carData
## Loading required package: lmtest
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## Loading required package: sandwich
## Loading required package: survival
data("Parade2005")
head(Parade2005)
##   earnings age gender state celebrity
## 1    10000  26   male    ND        no
## 2 10000000  18 female    CA       yes
## 3    85000  39   male    NE        no
## 4    75000  50 female    NC        no
## 5    91500  61   male    DE        no
## 6    49500  39 female    SD        no

Tiến hành tạo dữ liệu bản sao

Pa <- Parade2005
names(Pa) <- c("ThuNhap","Tuoi","GioiTinh","Bang","NoiTieng")

Truy vấn dữ liệu con

ThuNhap <- Pa$ThuNhap
Tuoi <- Pa$Tuoi
GioiTinh <- Pa$GioiTinh
x <- Pa[, c("ThuNhap","Tuoi","GioiTinh")]
str(x)
## 'data.frame':    130 obs. of  3 variables:
##  $ ThuNhap : num  10000 10000000 85000 75000 91500 49500 105000 30000 40000 23000 ...
##  $ Tuoi    : num  26 18 39 50 61 39 31 24 24 45 ...
##  $ GioiTinh: Factor w/ 2 levels "female","male": 2 1 2 1 2 1 1 2 1 2 ...

TRỰC QUAN HÓA DỮ LIỆU

Sử dụng Package :ggplot2”

library(ggplot2)

Đồ thị thể hiện dữ liệu

barplot(ThuNhap, xlab = "", ylab = "Thu Nhập",  main = "Biểu đồ thể hiện dữ liệu của biến Thu Nhập", col = c("red", "green", "blue", "pink", "white")) + barplot(Tuoi, xlab = "", ylab = "Tuổi",  main = "Biểu đồ thể hiện dữ liệu của biến Tuổi", col = c("red", "green", "blue", "pink", "white"))

##         [,1]
##   [1,]   1.4
##   [2,]   3.8
##   [3,]   6.2
##   [4,]   8.6
##   [5,]  11.0
##   [6,]  13.4
##   [7,]  15.8
##   [8,]  18.2
##   [9,]  20.6
##  [10,]  23.0
##  [11,]  25.4
##  [12,]  27.8
##  [13,]  30.2
##  [14,]  32.6
##  [15,]  35.0
##  [16,]  37.4
##  [17,]  39.8
##  [18,]  42.2
##  [19,]  44.6
##  [20,]  47.0
##  [21,]  49.4
##  [22,]  51.8
##  [23,]  54.2
##  [24,]  56.6
##  [25,]  59.0
##  [26,]  61.4
##  [27,]  63.8
##  [28,]  66.2
##  [29,]  68.6
##  [30,]  71.0
##  [31,]  73.4
##  [32,]  75.8
##  [33,]  78.2
##  [34,]  80.6
##  [35,]  83.0
##  [36,]  85.4
##  [37,]  87.8
##  [38,]  90.2
##  [39,]  92.6
##  [40,]  95.0
##  [41,]  97.4
##  [42,]  99.8
##  [43,] 102.2
##  [44,] 104.6
##  [45,] 107.0
##  [46,] 109.4
##  [47,] 111.8
##  [48,] 114.2
##  [49,] 116.6
##  [50,] 119.0
##  [51,] 121.4
##  [52,] 123.8
##  [53,] 126.2
##  [54,] 128.6
##  [55,] 131.0
##  [56,] 133.4
##  [57,] 135.8
##  [58,] 138.2
##  [59,] 140.6
##  [60,] 143.0
##  [61,] 145.4
##  [62,] 147.8
##  [63,] 150.2
##  [64,] 152.6
##  [65,] 155.0
##  [66,] 157.4
##  [67,] 159.8
##  [68,] 162.2
##  [69,] 164.6
##  [70,] 167.0
##  [71,] 169.4
##  [72,] 171.8
##  [73,] 174.2
##  [74,] 176.6
##  [75,] 179.0
##  [76,] 181.4
##  [77,] 183.8
##  [78,] 186.2
##  [79,] 188.6
##  [80,] 191.0
##  [81,] 193.4
##  [82,] 195.8
##  [83,] 198.2
##  [84,] 200.6
##  [85,] 203.0
##  [86,] 205.4
##  [87,] 207.8
##  [88,] 210.2
##  [89,] 212.6
##  [90,] 215.0
##  [91,] 217.4
##  [92,] 219.8
##  [93,] 222.2
##  [94,] 224.6
##  [95,] 227.0
##  [96,] 229.4
##  [97,] 231.8
##  [98,] 234.2
##  [99,] 236.6
## [100,] 239.0
## [101,] 241.4
## [102,] 243.8
## [103,] 246.2
## [104,] 248.6
## [105,] 251.0
## [106,] 253.4
## [107,] 255.8
## [108,] 258.2
## [109,] 260.6
## [110,] 263.0
## [111,] 265.4
## [112,] 267.8
## [113,] 270.2
## [114,] 272.6
## [115,] 275.0
## [116,] 277.4
## [117,] 279.8
## [118,] 282.2
## [119,] 284.6
## [120,] 287.0
## [121,] 289.4
## [122,] 291.8
## [123,] 294.2
## [124,] 296.6
## [125,] 299.0
## [126,] 301.4
## [127,] 303.8
## [128,] 306.2
## [129,] 308.6
## [130,] 311.0

Xử lý dữ liệu

Lọc dữ liệu

m <- Pa[Pa$GioiTinh=='male' & Pa$ThuNhap > 20000000, ]
str(m)
## 'data.frame':    3 obs. of  5 variables:
##  $ ThuNhap : num  2.1e+07 2.5e+07 4.2e+07
##  $ Tuoi    : num  20 51 28
##  $ GioiTinh: Factor w/ 2 levels "female","male": 2 2 2
##  $ Bang    : Factor w/ 50 levels "AK","AL","AZ",..: 35 9 15
##  $ NoiTieng: Factor w/ 2 levels "no","yes": 2 2 2

Sắp xếp lại dữ liệu

ThuNhaptang = Pa[order(Pa$ThuNhap), ]
head(ThuNhaptang)
##     ThuNhap Tuoi GioiTinh Bang NoiTieng
## 1     10000   26     male   ND       no
## 100   11000   43   female   IN       no
## 21    12000   39   female   MI       no
## 94    12000   27   female   VA       no
## 126   17500   38   female   AK       no
## 118   17900   42   female   VT       no

LẬP BẢNG TẦN SỐ VÀ ĐỒ THỊ MÔ TẢ

Biến 1

Bảng tần số

BangThuNhap <- cut(ThuNhap, breaks = c(10000, 50000, 250000, 1000000,10000000, 42000000 ), labels = c("thap", "trungbinh", "trungbinhcao","cao", "ratcao"), right = TRUE)
tabThuNhap=table(BangThuNhap)
tabThuNhap
## BangThuNhap
##         thap    trungbinh trungbinhcao          cao       ratcao 
##           66           51            3            2            7

Giải thích kết quả:

Biến 2

Bảng tần số

Giải thích kết quả:

BÀI TẬP VỀ NHÀ TUẦN 2

CHỦ ĐỀ PHÂN TÍCH

Mô tả dữ liệu

Dataset:

Các biến:

  • income:
  • age:
  • gender:

Mục tiêu:

CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ TẬP TRUNG

Trung bình

  • Ý nghĩa:

Trung vị

  • Ý nghĩa:

CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ PHÂN TÁN

Phương sai

  • Ý nghĩa

Độ lệch chuẩn

  • Ý nghĩa

LẬP BẢNG TẦN SỐ VÀ VẼ ĐỒ THỊ 2 BIẾN

Biến ThuNhap và Tuoi

Lập bảng tần số:

Kiểm định:

Vẽ đồ thị:

Nêu kết quả:

Biến ThuNhap và GioiTinh

Lập bảng tần số:

Kiểm định:

Vẽ đồ thị:

Nêu kết quả:

BÀI TẬP VỀ NHÀ TUẦN 3

Biên tập dữ liệu

Tách rời dữ liệu

Chiết số liệu từ 1 data.frame

Nhập 2 data.frame thành một: merge

Biến đổi số liệu

Xoay trục dữ liệu

Nối dữ liệu

Loại bỏ trùng lặp

CÁC HÀM PHÂN PHỐI & XÁC SUẤT CỦA QUAN SÁT THUỘC BIẾN

Hàm phân phối nhị phân

  • Ý nghĩa:

  • Giải thích:

Hàm phân phối Poisson

  • Ý nghĩa:

  • Giải thích:

Hàm phân phối chuẩn

  • Ý nghĩa:

  • Giải thích:

Hàm phân phối chuẩn chuẩn hóa

  • Ý nghĩa:

  • Giải thích:

TRỰC QUAN HÓA DỮ LIỆU VÀ PHÂN TÍCH ĐỒ THỊ

Biểu đồ cho 1 biến

ThuNhap

Tuoi

GioiTinh

TieuBang

NoiTieng?

Biểu đồ cho 2 biến

ThuNhap và Tuoi:

ThuNhap và GioiTinh:

ThuNhap và NoiTieng?:

Biểu đồ tán xạ

ThuNhap và Tuoi:

Biểu đồ liên hệ giữa nhiều biến