Mô tả các tham số:

## Loading required package: boot
##      nbr.val     nbr.null       nbr.na          min          max 
## 6.853000e+03 1.300000e+02 0.000000e+00 0.000000e+00 1.976536e+06 
##        range          sum       median         mean      SE.mean 
## 1.976536e+06 4.018869e+07 3.540000e+02 5.864394e+03 6.278163e+02 
## CI.mean.0.95          var      std.dev     coef.var 
## 1.230715e+03 2.701132e+09 5.197242e+04 8.862368e+00

Mô tả ở trên cho toàn bộ tổng thể Thống kê mô tả chỉ tiết theo Tỉnh Có các Hàm mô tả như Sum,mean, avg,max,min… - Đối với ý nghĩa của phân tổ theo Tỉnh chỉ có hàm Sum có ý nghĩa nên các hàm khác không đưa vào - Ngôn ngữ R hỗ trợ tính gộp rất đa dạng tuy nhiên hàm AGGREGATE chưa tính gộp mạnh như các ngôn ngữ NoSQL và cũng không linh hoạt như các ngôn ngữ SQL, có thể mình chưa đọc nhiều nhưng có lẽ R thiên về phân tích dữ liệu thống kê số nhỏ mà các phép toán AGGREGATE phức tạp của R có trong các gói phân tích Bigdata của R - Các tỉnh Thành phố HCM, Hà Nội, Khánh Hòa, Đà Nẵng và Bà Rịa Vũng Tàu có số doanh nghiệp có doanh thu cao nhất về du lịch lữ hành

library(ggplot2)
library(plyr)
m1 <- aggregate(dn2013$kqkd1 ~ dn2013$tinh , data = dn2013, FUN= "mean") # Tính gộp Trung bình doanh thu theo tỉnh
m1 <- m1[order(m1[2], decreasing=TRUE),] # Sắp xếp theo thứ tự giảm dần
m2 <- aggregate(dn2013$kqkd1 ~ dn2013$tinh , data = dn2013, FUN= "sum") # Tính gộp Tổng doanh thu theo Tỉnh
m2 <- m2[order(m2[2], decreasing=TRUE),] # Sắp xếp theo thứ tự giảm dần của doanh thu
m2 <- rename(m2, c("dn2013$tinh"="Tinh", "dn2013$kqkd1"="Doanh_thu"))
#mt2 <- as.matrix(m2)
#t2 = table(m2)
ggplot(data=m2, aes(x=Tinh, y=Doanh_thu)) + geom_bar(stat="identity") + coord_flip()

##barplot(t2,width = 5,main = "Doanh thu theo Tỉnh",beside = TRUE,horiz = TRUE)

Thống kê mô tả chi tiết theo Vùng - Thống kê theo ba vùng Bắc, Trung, Nam có thể ghép vùng hợp lý theo phân tích - Vẽ biểu đồ Box cho 3 vùng

library(ggplot2)
#library(RColorBrewer)
#kihieu=brewer.pal(n = 8, name = "Dark2")
vt <- v1
v1 <- replace(v1, vt <= 37, 'B')
v1 <- replace(v1, vt > 37 & vt <= 49,'T')
v1 <- replace(v1, vt > 49, 'N')
data <- data.frame(v1, v2)

#boxplot(log(v2)~v1,col=kihieu[1:3])
ggplot(data,aes(v1,log(v2),colour=v1))+geom_boxplot()
## Warning: Removed 130 rows containing non-finite values (stat_boxplot).

Khi không lấy Log đường cong mật độ về doanh thu của doanh nghiệp lữ hành phân bố không chuẩn, khi lấy Log theo định luật giới hạn trung tâm phân bố của doanh thu sẽ gần với phân bố chuẩn tắc có thể sử dụng các bảng thống kê để tính toán kiểm định được cho các suy luận về sau

library(ggplot2)
par(mfrow=c(1,2)) # Đặt cửa sổ hiển thị thành 1 hàng và 2 cột.
plot(density(c1),main = "Chua Logarit")
plot(density(c2),main = "Co Logarit",frame = FALSE) 
polygon(density(c2), col = "steelblue")