Đây là một package khá thú vị trong việc phân tích và khai thác số liệu của dữ liệu.Một package khá hay khi vừa có thể cho ta biết được các thông số thống kê và vừa có thể vẽ những biểu đồ khá hữu dụng trong việc làm phân tích.

Load dataset

data("iris")
head(iris)

##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa

Sử dụng lệnh explore() để khảo sát từng đặc tính của bộ dữ liệu iris

describe(data = iris)

## # A tibble: 5 x 8
##   variable     type     na na_pct unique   min  mean   max
##   <chr>        <chr> <int>  <dbl>  <int> <dbl> <dbl> <dbl>
## 1 Sepal.Length dbl       0      0     35   4.3  5.84   7.9
## 2 Sepal.Width  dbl       0      0     23   2    3.06   4.4
## 3 Petal.Length dbl       0      0     43   1    3.76   6.9
## 4 Petal.Width  dbl       0      0     22   0.1  1.2    2.5
## 5 Species      fct       0      0      3  NA   NA     NA

describe(data = iris,Sepal.Length)

## variable = Sepal.Length
## type     = double
## na       = 0 of 150 (0%)
## unique   = 35
## min|max  = 4.3 | 7.9
## q05|q95  = 4.6 | 7.255
## q25|q75  = 5.1 | 6.4
## median   = 5.8
## mean     = 5.843333

Khi dùng lệnh describe kèm thêm một biến cần phân tích (ví dụ Sepal.Length) thì ta có được 1 bảng khá đầy đủ về các thông số như min,max,phân vị ,trung vị,trung bình.

# Hoặc cũng có sử dụng lệnh describe_num()
describe_num(data = iris,Sepal.Length)

## variable = Sepal.Length
## type     = double
## na       = 0 of 150 (0%)
## unique   = 35
## min|max  = 4.3 | 7.9
## q05|q95  = 4.6 | 7.255
## q25|q75  = 5.1 | 6.4
## median   = 5.8
## mean     = 5.843333

describe(data = iris,Species)

## variable = Species
## type     = factor
## na       = 0 of 150 (0%)
## unique   = 3
##  setosa     = 50 (33.3%)
##  versicolor = 50 (33.3%)
##  virginica  = 50 (33.3%)

Đối với dữ liệu phân loại thì lệnh describe cho ta được phần trăm và số lượng của mỗi nhóm.

# Hoặc ta sử dụng describe_cat()
describe_cat(data = iris,Species)

## variable = Species
## type     = factor
## na       = 0 of 150 (0%)
## unique   = 3
##  setosa     = 50 (33.3%)
##  versicolor = 50 (33.3%)
##  virginica  = 50 (33.3%)

data("iris")
iris$is_versicolor = ifelse(iris$Species == "versicolor",1,0)
iris$Species =NULL
explain_tree(iris,target = is_versicolor)

Câu lệnh trên cho ta 1 ví dụ về mô hình cây quyết định.

rm(list = ls())
data("iris")
explore_all(data = iris)

Với lệnh này ta có thể khảo sát được dạng phân bố của các biến.

explore_all(data = iris,target = Species)

Khi ta thêm target vào ( biến phân nhóm) thì ta có thể thấy được phân bố của các biến theo từng phân nhóm.

explore_cor(data = iris,x=Species,y =Sepal.Length,color = c("blue","red","orange"))

Lệnh trên cho ta 1 biểu đồ boxplot khá đẹp.

explore_density(data = iris,Sepal.Length,target = Species)

Bằng câu lệnh ta có thể vẽ 1 biểu đồ mật độ phân bố của 1 biến (ở đây là Sepal.Length) và phân loại theo từng loài hoa (Species).

Khai thác dữ liệu bằng package Explore

Đặng Khải Hoàn

2/14/2020

Load library

Load dataset