Đây là một package khá thú vị trong việc phân tích và khai thác số liệu của dữ liệu.Một package khá hay khi vừa có thể cho ta biết được các thông số thống kê và vừa có thể vẽ những biểu đồ khá hữu dụng trong việc làm phân tích.
library(dplyr)
library(explore)
library(magrittr)
data("iris")
head(iris)
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1 5.1 3.5 1.4 0.2 setosa
## 2 4.9 3.0 1.4 0.2 setosa
## 3 4.7 3.2 1.3 0.2 setosa
## 4 4.6 3.1 1.5 0.2 setosa
## 5 5.0 3.6 1.4 0.2 setosa
## 6 5.4 3.9 1.7 0.4 setosa
Sử dụng lệnh explore() để khảo sát từng đặc tính của bộ dữ liệu iris
describe(data = iris)
## # A tibble: 5 x 8
## variable type na na_pct unique min mean max
## <chr> <chr> <int> <dbl> <int> <dbl> <dbl> <dbl>
## 1 Sepal.Length dbl 0 0 35 4.3 5.84 7.9
## 2 Sepal.Width dbl 0 0 23 2 3.06 4.4
## 3 Petal.Length dbl 0 0 43 1 3.76 6.9
## 4 Petal.Width dbl 0 0 22 0.1 1.2 2.5
## 5 Species fct 0 0 3 NA NA NA
describe(data = iris,Sepal.Length)
## variable = Sepal.Length
## type = double
## na = 0 of 150 (0%)
## unique = 35
## min|max = 4.3 | 7.9
## q05|q95 = 4.6 | 7.255
## q25|q75 = 5.1 | 6.4
## median = 5.8
## mean = 5.843333
Khi dùng lệnh describe kèm thêm một biến cần phân tích (ví dụ Sepal.Length) thì ta có được 1 bảng khá đầy đủ về các thông số như min,max,phân vị ,trung vị,trung bình.
# Hoặc cũng có sử dụng lệnh describe_num()
describe_num(data = iris,Sepal.Length)
## variable = Sepal.Length
## type = double
## na = 0 of 150 (0%)
## unique = 35
## min|max = 4.3 | 7.9
## q05|q95 = 4.6 | 7.255
## q25|q75 = 5.1 | 6.4
## median = 5.8
## mean = 5.843333
describe(data = iris,Species)
## variable = Species
## type = factor
## na = 0 of 150 (0%)
## unique = 3
## setosa = 50 (33.3%)
## versicolor = 50 (33.3%)
## virginica = 50 (33.3%)
Đối với dữ liệu phân loại thì lệnh describe cho ta được phần trăm và số lượng của mỗi nhóm.
# Hoặc ta sử dụng describe_cat()
describe_cat(data = iris,Species)
## variable = Species
## type = factor
## na = 0 of 150 (0%)
## unique = 3
## setosa = 50 (33.3%)
## versicolor = 50 (33.3%)
## virginica = 50 (33.3%)
data("iris")
iris$is_versicolor = ifelse(iris$Species == "versicolor",1,0)
iris$Species =NULL
explain_tree(iris,target = is_versicolor)
Câu lệnh trên cho ta 1 ví dụ về mô hình cây quyết định.
rm(list = ls())
data("iris")
explore_all(data = iris)
Với lệnh này ta có thể khảo sát được dạng phân bố của các biến.
explore_all(data = iris,target = Species)
Khi ta thêm target vào ( biến phân nhóm) thì ta có thể thấy được phân bố của các biến theo từng phân nhóm.
explore_cor(data = iris,x=Species,y =Sepal.Length,color = c("blue","red","orange"))
Lệnh trên cho ta 1 biểu đồ boxplot khá đẹp.
explore_density(data = iris,Sepal.Length,target = Species)
Bằng câu lệnh ta có thể vẽ 1 biểu đồ mật độ phân bố của 1 biến (ở đây là Sepal.Length) và phân loại theo từng loài hoa (Species).