## 第一题,特征工程构建之数据可视化,利用car.csv数据集,只考虑发生索赔的保单;此时,发生的索赔额记为claimcst0。请完成以下操作。

##将下图中左一图中的横纵坐标替换成保单有效期(exposure)和赔付额(claimcst0),将职称替换成性别(gender)。

##将下图中右一图中的横纵坐标替换成汽车价值(veh_value)和赔付额(claimcst0)之间的关系,将学科替换成行驶区域(area)。

### 第一步数据准备

 # 读取数据
 dt <- read.csv('C:/Users/ROG/Desktop/car.csv')
 dt0 <- subset(x = dt,subset = dt$clm>0) # 数据筛选
 dt0$pch_gender <- ifelse(dt0$gender=='M', 1, 2)
 dt0$pch_area <- ifelse(dt0$area=='A', 1, 
                        ifelse(dt0$area=='B', 2,
                               ifelse(dt0$area=='C', 3,
                                      ifelse(dt0$area=='D', 4,
                                             ifelse(dt0$area=='E',5,6)))))
### 第二步画左侧图
 attach(dt0)
 par(mfrow=c(1,2))
 plot(x = exposure, y = claimcst0,type='p',col=factor(gender),
      xlab = '保单有效期',ylab = '赔付额',
      main = '保单有效期与赔付额之间的关系',
      pch = pch_gender)
 legend('topright',legend = c('男生','女生'), pch=c(1,2),col=c(1,2), bty='n')
 
 plot(x = veh_value, y = claimcst0,type='p',col=factor(area),
      xlab = '汽车价值',ylab = '赔付额',
      main = '汽车价值与赔付额之间的关系',
      pch = pch_area)
 legend('topright',legend = c('A','B','C','D','E','F'), pch=1:6,col=1:6, bty='n')

  detach(dt0)
dt <- read.csv('C:/Users/ROG/Desktop/car.csv')
dt0 <- subset(x = dt,claimcst0>0)

##第二步,画频率图
hist(dt0$claimcst0,freq = F,breaks = 50,col=rainbow(50),ylim = c(0,7e-4),
       main=c('累计索赔额的经验密度函数'),xlab=c('claimcst0'))
  flag <- density(dt0$claimcst0)
  lines(x=flag$x,y=flag$y,col=2,lwd=2)