我想试着分析一下到底这个海关查验有无规律(因为杨总说过海关查验应该是随机的),所以我从2021上半年货柜分析汇总中提取的数据,试着分析了下查验货柜于未查验货柜之间的关系。
methodology:线性回归,以及boxplot 通过汇总乐邮达,巨人,途牧,富皇,乐天的数据,分析如下: 1,查验货柜以及未查验货柜的申报价额 两者之间的中位数趋于相同,然而通过quartile的范围可得知,查验货柜的申报价额相比于未查验货柜的申报价额更为集中,而未经查验货柜的异常值偏多(outlier),即申报价额较高、较低的柜子被查验的概率偏小。
通过线性回归得知,我们没有充分证据表明查验货柜的申报价额与未查验货柜的申报价额的平均值有不同。
2,查验货柜以及未查验货柜的税率 分析同上,两者中位数趋于相同,未查验货柜的税率分布更为广泛,偏大异常值较多,使得数据整体向右偏移(平均值被拉高)。
通过线性回归,同样得出两者之间的税率平均值没有很大的不同。
3,查验货柜以及未查验货柜的GST 分析同上,中位数趋于相同,未经查验货柜的数值偏度较为正常,查验货柜的稍微右偏。
线性回归分析得知两者平局值趋于相同。
总结:通过对比未经查验以及查验货柜的不同变量得知,海关查验货柜较为随机,但异常值较大的货柜,查验概率更小(符合正态分布)。
Exam <- read.csv(file = 'Examination_Analysis.csv')
head(Exam)
## Declared_Val X GST Tax_Rate Exam X.1 X.2 X.3 X.4
## 1 19030.00 0.00 951.50 0.0500 no NA 1.95426e-07 NA
## 2 18568.43 1,636.72 1010.26 0.1426 no 30636441 2.59410e-07 NA
## 3 19030.00 0.00 951.50 0.0500 yes NA 1.95426e-07 NA
## 4 19030.00 0.00 951.50 0.0500 no NA 1.95426e-07 NA
## 5 19085.00 0.00 954.25 0.0500 no NA 1.88853e-07 NA
## 6 19030.00 0.00 951.50 0.0500 no NA 1.95426e-07 NA
boxplot(Exam$Declared_Val~Exam$Exam,ylab="declared value",names = c ("Without Examination","With Examination"))
stripchart(Exam$Declared_Val~Exam$Exam,method = "jitter",vertical = TRUE, add=TRUE)
Exam_Dec <- lm (Exam$Declared_Val~Exam$Exam)
Exam_Dec$coefficients
## (Intercept) Exam$Examyes
## 19946.4875 392.8222
summary(Exam_Dec)$coefficients
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 19946.4875 286.8196 69.5436589 3.139285e-232
## Exam$Examyes 392.8222 858.4223 0.4576095 6.474702e-01
boxplot(Exam$Tax_Rate~Exam$Exam,ylab="Tax Rate",names = c ("Without Examination","With Examination"))
stripchart(Exam$Tax_Rate~Exam$Exam,method = "jitter",vertical = TRUE, add=TRUE)
Exam_Tax <- lm (Exam$Tax_Rate~Exam$Exam)
Exam_Tax$coefficients
## (Intercept) Exam$Examyes
## 0.108185829 -0.003879446
summary(Exam_Tax)$coefficients
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.108185829 0.001594740 67.8391743 4.414738e-228
## Exam$Examyes -0.003879446 0.004772896 -0.8128076 4.167900e-01
boxplot(Exam$GST~Exam$Exam,ylab="GST",names = c ("Without Examination","With Examination"))
stripchart(Exam$GST~Exam$Exam,method = "jitter",vertical = TRUE, add=TRUE)
Exam_GST <- lm (Exam$GST~Exam$Exam)
Exam_GST$coefficients
## (Intercept) Exam$Examyes
## 1049.99457 16.03436
summary(Exam_GST)$coefficients
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1049.99457 14.72560 71.3040040 2.002673e-236
## Exam$Examyes 16.03436 44.07225 0.3638199 7.161760e-01
summary(Exam_Dec)
##
## Call:
## lm(formula = Exam$Declared_Val ~ Exam$Exam)
##
## Residuals:
## Min 1Q Median 3Q Max
## -18908.5 -3449.2 -657.4 2598.9 23989.0
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 19946.5 286.8 69.544 <2e-16 ***
## Exam$Examyes 392.8 858.4 0.458 0.647
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5547 on 419 degrees of freedom
## Multiple R-squared: 0.0004995, Adjusted R-squared: -0.001886
## F-statistic: 0.2094 on 1 and 419 DF, p-value: 0.6475
针对近期的航期紊乱,我也稍微做了一个时分析(乐邮达海运),确实看得出最近的波动很大(如下图),但波动已经逐渐减少
diff <- read.csv(file="Arrival_Difference.csv")
plot.ts(diff$Time_Difference,xlab='from march to July', ylab='ETA-Actual Arrival')
我也做了一个LYD货物量时分析(去年六月至今,根据daily report),最近收疫情影响货物量下降。
ts <- read.csv(file='time_series .csv')
head(ts)
## X ETA
## 1 GAOU6149055 2020-06-22
## 2 OCGU8067419 2020-06-22
## 3 EMCU9733372 2020-06-29
## 4 EMCU9468520 2020-06-29
## 5 TEMU8677945 2020-06-29
## 6 EGHU9498746 2020-07-13
ts$ETA <- as.Date(ts$ETA, format="%Y-%m-%d")
tab <- table(cut(ts$ETA, 'day'))
ts.table<- data.frame(Date=format(as.Date(names(tab)), '%d/%m/%Y'),
Frequency=as.vector(tab))
plot.ts(ts.table$Frequency, xlab='From June 2020 till now', ylab= 'Number of containers perday_According to ETA')
Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.