데이터 불러오기
data <- read.csv("box_kor_y.csv")
변수 특징
data$년도 <- as.factor(data$년도)
str(data)
## 'data.frame': 530 obs. of 40 variables:
## $ 영화명 : Factor w/ 530 levels "10억","1724기방난동사건",..: 339 504 188 435 70 223 81 3 242 175 ...
## $ 년도 : Factor w/ 10 levels "2007","2008",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ 장르 : Factor w/ 14 levels "가족드라마","공포",..: 4 5 14 4 10 5 14 14 14 14 ...
## $ 키워드_가족 : int 0 1 0 0 0 0 0 0 0 0 ...
## $ 키워드_사랑 : int 0 1 1 0 0 1 0 0 0 0 ...
## $ 키워드_범죄 : int 0 0 0 0 1 0 0 0 0 0 ...
## $ 키워드_살인 : int 0 0 0 0 1 0 0 0 0 0 ...
## $ 키워드_원작 : int 0 0 1 0 0 0 0 0 1 0 ...
## $ 키워드_형사 : int 0 0 0 1 0 1 0 0 0 0 ...
## $ 키워드_청춘 : int 0 0 0 0 0 1 0 0 0 0 ...
## $ 키워드_결혼 : int 0 0 0 0 0 1 0 0 0 0 ...
## $ 키워드_전문직 : int 1 0 0 0 1 1 0 0 0 1 ...
## $ 키워드_실화 : int 0 0 0 0 1 0 0 0 0 0 ...
## $ 키워드_스포츠 : int 0 0 0 0 0 0 0 1 0 0 ...
## $ 키워드_범죄조직 : int 0 0 0 0 0 0 0 0 0 1 ...
## $ 키워드_일제치하 : int 0 0 0 0 0 0 0 0 0 0 ...
## $ 키워드_전쟁.재난 : int 0 0 0 0 0 0 0 0 0 0 ...
## $ 키워드_음악 : int 0 0 0 0 0 0 0 0 1 0 ...
## $ 키워드_사회비판 : int 0 0 0 0 0 0 0 0 0 1 ...
## $ 키워드_조선 : int 0 0 0 0 0 0 0 0 0 0 ...
## $ 키워드_군대.북한 : int 0 0 0 0 0 0 0 0 0 0 ...
## $ 키워드_의료 : int 0 0 0 0 0 0 0 0 0 0 ...
## $ 키워드_여성 : int 0 0 0 0 0 1 0 0 0 0 ...
## $ 키워드_현대사 : int 0 0 0 0 1 0 0 0 0 0 ...
## $ 키워드_죽음 : int 0 0 0 0 0 0 0 0 0 0 ...
## $ 키워드_법정 : int 0 0 0 0 0 0 0 0 0 0 ...
## $ 키워드_우정 : int 0 0 0 0 0 0 0 0 0 0 ...
## $ 키워드_섹스 : int 0 0 0 0 0 0 0 0 0 0 ...
## $ 키워드_미스터리 : int 0 0 0 0 0 0 0 0 0 0 ...
## $ 키워드_SF.판타지 : int 1 0 0 0 0 0 0 1 0 0 ...
## $ 키워드_귀신.스릴러: int 0 0 0 0 0 0 0 0 0 0 ...
## $ 관람등급 : Factor w/ 4 levels "12세이상관람가",..: 1 1 1 2 1 4 2 2 1 2 ...
## $ 감독경력 : int 1 4 3 2 4 2 1 4 1 1 ...
## $ 다섯배우경력 : int 16 12 22 4 21 21 26 23 8 4 ...
## $ 배우대종상점수 : num 2.5 0 0 0 13.6 ...
## $ 러닝타임 : int 112 113 129 109 122 103 103 113 114 98 ...
## $ 배급사경력 : int 31 46 51 46 51 31 46 51 0 46 ...
## $ 해외영화제 : int 0 0 0 0 0 0 0 0 0 0 ...
## $ 개봉시즌 : Factor w/ 3 levels "비수기","성수기",..: 3 3 3 3 3 3 3 3 3 3 ...
## $ 관객점유율 : num 0.0024 0.0193 0.0208 0.0176 0.0439 0.0253 0.0137 0.0375 0.0223 0.0032 ...
head(data)
## 영화명 년도 장르 키워드_가족 키워드_사랑 키워드_범죄
## 1 언니가간다 2007 로맨틱코메디 0 0 0
## 2 허브 2007 멜로드라마 1 1 0
## 3 마파도2 2007 코메디 0 1 0
## 4 최강로맨스 2007 로맨틱코메디 0 0 0
## 5 그놈목소리 2007 스릴러 0 0 1
## 6 바람피기좋은날 2007 멜로드라마 0 1 0
## 키워드_살인 키워드_원작 키워드_형사 키워드_청춘 키워드_결혼
## 1 0 0 0 0 0
## 2 0 0 0 0 0
## 3 0 1 0 0 0
## 4 0 0 1 0 0
## 5 1 0 0 0 0
## 6 0 0 1 1 1
## 키워드_전문직 키워드_실화 키워드_스포츠 키워드_범죄조직 키워드_일제치하
## 1 1 0 0 0 0
## 2 0 0 0 0 0
## 3 0 0 0 0 0
## 4 0 0 0 0 0
## 5 1 1 0 0 0
## 6 1 0 0 0 0
## 키워드_전쟁.재난 키워드_음악 키워드_사회비판 키워드_조선
## 1 0 0 0 0
## 2 0 0 0 0
## 3 0 0 0 0
## 4 0 0 0 0
## 5 0 0 0 0
## 6 0 0 0 0
## 키워드_군대.북한 키워드_의료 키워드_여성 키워드_현대사 키워드_죽음
## 1 0 0 0 0 0
## 2 0 0 0 0 0
## 3 0 0 0 0 0
## 4 0 0 0 0 0
## 5 0 0 0 1 0
## 6 0 0 1 0 0
## 키워드_법정 키워드_우정 키워드_섹스 키워드_미스터리 키워드_SF.판타지
## 1 0 0 0 0 1
## 2 0 0 0 0 0
## 3 0 0 0 0 0
## 4 0 0 0 0 0
## 5 0 0 0 0 0
## 6 0 0 0 0 0
## 키워드_귀신.스릴러 관람등급 감독경력 다섯배우경력 배우대종상점수
## 1 0 12세이상관람가 1 16 2.50
## 2 0 12세이상관람가 4 12 0.00
## 3 0 12세이상관람가 3 22 0.00
## 4 0 15세이상관람가 2 4 0.00
## 5 0 12세이상관람가 4 21 13.64
## 6 0 청소년관람불가 2 21 17.50
## 러닝타임 배급사경력 해외영화제 개봉시즌 관객점유율
## 1 112 31 0 준성수기 0.0024
## 2 113 46 0 준성수기 0.0193
## 3 129 51 0 준성수기 0.0208
## 4 109 46 0 준성수기 0.0176
## 5 122 51 0 준성수기 0.0439
## 6 103 31 0 준성수기 0.0253
summary(data)
## 영화명 년도 장르
## 10억 : 1 2007 : 58 드라마 : 78
## 1724기방난동사건 : 1 2016 : 57 코메디 : 74
## 1번가의기적 : 1 2012 : 56 로맨틱코메디: 58
## 26년 : 1 2015 : 56 액션 : 52
## 4교시추리영역 : 1 2008 : 54 멜로드라마 : 43
## 4요일자살을부르는요일: 1 2013 : 54 스릴러 : 37
## (Other) :524 (Other):195 (Other) :188
## 키워드_가족 키워드_사랑 키워드_범죄 키워드_살인
## Min. :0.0000 Min. :0.0000 Min. :0.0000 Min. :0.0000
## 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.0000
## Median :0.0000 Median :0.0000 Median :0.0000 Median :0.0000
## Mean :0.1755 Mean :0.2057 Mean :0.1962 Mean :0.1717
## 3rd Qu.:0.0000 3rd Qu.:0.0000 3rd Qu.:0.0000 3rd Qu.:0.0000
## Max. :1.0000 Max. :1.0000 Max. :1.0000 Max. :1.0000
##
## 키워드_원작 키워드_형사 키워드_청춘 키워드_결혼
## Min. :0.0000 Min. :0.0000 Min. :0.000 Min. :0.00000
## 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.000 1st Qu.:0.00000
## Median :0.0000 Median :0.0000 Median :0.000 Median :0.00000
## Mean :0.1491 Mean :0.1283 Mean :0.117 Mean :0.09811
## 3rd Qu.:0.0000 3rd Qu.:0.0000 3rd Qu.:0.000 3rd Qu.:0.00000
## Max. :1.0000 Max. :1.0000 Max. :1.000 Max. :1.00000
##
## 키워드_전문직 키워드_실화 키워드_스포츠 키워드_범죄조직
## Min. :0.0000 Min. :0.00000 Min. :0.00000 Min. :0.00000
## 1st Qu.:0.0000 1st Qu.:0.00000 1st Qu.:0.00000 1st Qu.:0.00000
## Median :0.0000 Median :0.00000 Median :0.00000 Median :0.00000
## Mean :0.1264 Mean :0.09623 Mean :0.05283 Mean :0.06038
## 3rd Qu.:0.0000 3rd Qu.:0.00000 3rd Qu.:0.00000 3rd Qu.:0.00000
## Max. :1.0000 Max. :1.00000 Max. :1.00000 Max. :1.00000
##
## 키워드_일제치하 키워드_전쟁.재난 키워드_음악 키워드_사회비판
## Min. :0.00000 Min. :0.0000 Min. :0.00000 Min. :0.0000
## 1st Qu.:0.00000 1st Qu.:0.0000 1st Qu.:0.00000 1st Qu.:0.0000
## Median :0.00000 Median :0.0000 Median :0.00000 Median :0.0000
## Mean :0.03019 Mean :0.0566 Mean :0.05849 Mean :0.0717
## 3rd Qu.:0.00000 3rd Qu.:0.0000 3rd Qu.:0.00000 3rd Qu.:0.0000
## Max. :1.00000 Max. :1.0000 Max. :1.00000 Max. :1.0000
##
## 키워드_조선 키워드_군대.북한 키워드_의료 키워드_여성
## Min. :0.00000 Min. :0.00000 Min. :0.00000 Min. :0.00000
## 1st Qu.:0.00000 1st Qu.:0.00000 1st Qu.:0.00000 1st Qu.:0.00000
## Median :0.00000 Median :0.00000 Median :0.00000 Median :0.00000
## Mean :0.05472 Mean :0.04717 Mean :0.07736 Mean :0.08302
## 3rd Qu.:0.00000 3rd Qu.:0.00000 3rd Qu.:0.00000 3rd Qu.:0.00000
## Max. :1.00000 Max. :1.00000 Max. :1.00000 Max. :1.00000
##
## 키워드_현대사 키워드_죽음 키워드_법정 키워드_우정
## Min. :0.00000 Min. :0.0000 Min. :0.00000 Min. :0.00000
## 1st Qu.:0.00000 1st Qu.:0.0000 1st Qu.:0.00000 1st Qu.:0.00000
## Median :0.00000 Median :0.0000 Median :0.00000 Median :0.00000
## Mean :0.03774 Mean :0.0566 Mean :0.05094 Mean :0.06792
## 3rd Qu.:0.00000 3rd Qu.:0.0000 3rd Qu.:0.00000 3rd Qu.:0.00000
## Max. :1.00000 Max. :1.0000 Max. :1.00000 Max. :1.00000
##
## 키워드_섹스 키워드_미스터리 키워드_SF.판타지 키워드_귀신.스릴러
## Min. :0.0000 Min. :0.00000 Min. :0.0000 Min. :0.00000
## 1st Qu.:0.0000 1st Qu.:0.00000 1st Qu.:0.0000 1st Qu.:0.00000
## Median :0.0000 Median :0.00000 Median :0.0000 Median :0.00000
## Mean :0.0566 Mean :0.07358 Mean :0.0566 Mean :0.05283
## 3rd Qu.:0.0000 3rd Qu.:0.00000 3rd Qu.:0.0000 3rd Qu.:0.00000
## Max. :1.0000 Max. :1.00000 Max. :1.0000 Max. :1.00000
##
## 관람등급 감독경력 다섯배우경력 배우대종상점수
## 12세이상관람가:125 Min. : 1.000 Min. : 0.00 Min. : 0.000
## 15세이상관람가:259 1st Qu.: 2.000 1st Qu.:12.00 1st Qu.: 0.000
## 전체관람가 : 22 Median : 3.000 Median :19.50 Median : 0.790
## 청소년관람불가:124 Mean : 4.464 Mean :22.42 Mean : 5.957
## 3rd Qu.: 6.000 3rd Qu.:30.75 3rd Qu.: 8.750
## Max. :30.000 Max. :82.00 Max. :51.120
##
## 러닝타임 배급사경력 해외영화제 개봉시즌
## Min. : 72.0 Min. : 0.00 Min. :0.0000 비수기 :148
## 1st Qu.:104.2 1st Qu.: 5.00 1st Qu.:0.0000 성수기 :133
## Median :113.0 Median : 47.00 Median :0.0000 준성수기:249
## Mean :113.0 Mean : 55.46 Mean :0.1057
## 3rd Qu.:121.0 3rd Qu.: 93.00 3rd Qu.:0.0000
## Max. :163.0 Max. :170.00 Max. :1.0000
##
## 관객점유율
## Min. :0.00010
## 1st Qu.:0.00320
## Median :0.00940
## Mean :0.01887
## 3rd Qu.:0.02355
## Max. :0.17090
##
기술 통계량
library(psych)
describe(data)
## vars n mean sd median trimmed mad min max
## 영화명* 1 530 265.50 153.14 265.50 265.50 196.44 1 530.00
## 년도* 2 530 5.52 2.93 6.00 5.53 4.45 1 10.00
## 장르* 3 530 7.50 4.26 7.00 7.42 5.93 1 14.00
## 키워드_가족 4 530 0.18 0.38 0.00 0.09 0.00 0 1.00
## 키워드_사랑 5 530 0.21 0.40 0.00 0.13 0.00 0 1.00
## 키워드_범죄 6 530 0.20 0.40 0.00 0.12 0.00 0 1.00
## 키워드_살인 7 530 0.17 0.38 0.00 0.09 0.00 0 1.00
## 키워드_원작 8 530 0.15 0.36 0.00 0.06 0.00 0 1.00
## 키워드_형사 9 530 0.13 0.33 0.00 0.04 0.00 0 1.00
## 키워드_청춘 10 530 0.12 0.32 0.00 0.02 0.00 0 1.00
## 키워드_결혼 11 530 0.10 0.30 0.00 0.00 0.00 0 1.00
## 키워드_전문직 12 530 0.13 0.33 0.00 0.03 0.00 0 1.00
## 키워드_실화 13 530 0.10 0.30 0.00 0.00 0.00 0 1.00
## 키워드_스포츠 14 530 0.05 0.22 0.00 0.00 0.00 0 1.00
## 키워드_범죄조직 15 530 0.06 0.24 0.00 0.00 0.00 0 1.00
## 키워드_일제치하 16 530 0.03 0.17 0.00 0.00 0.00 0 1.00
## 키워드_전쟁.재난 17 530 0.06 0.23 0.00 0.00 0.00 0 1.00
## 키워드_음악 18 530 0.06 0.23 0.00 0.00 0.00 0 1.00
## 키워드_사회비판 19 530 0.07 0.26 0.00 0.00 0.00 0 1.00
## 키워드_조선 20 530 0.05 0.23 0.00 0.00 0.00 0 1.00
## 키워드_군대.북한 21 530 0.05 0.21 0.00 0.00 0.00 0 1.00
## 키워드_의료 22 530 0.08 0.27 0.00 0.00 0.00 0 1.00
## 키워드_여성 23 530 0.08 0.28 0.00 0.00 0.00 0 1.00
## 키워드_현대사 24 530 0.04 0.19 0.00 0.00 0.00 0 1.00
## 키워드_죽음 25 530 0.06 0.23 0.00 0.00 0.00 0 1.00
## 키워드_법정 26 530 0.05 0.22 0.00 0.00 0.00 0 1.00
## 키워드_우정 27 530 0.07 0.25 0.00 0.00 0.00 0 1.00
## 키워드_섹스 28 530 0.06 0.23 0.00 0.00 0.00 0 1.00
## 키워드_미스터리 29 530 0.07 0.26 0.00 0.00 0.00 0 1.00
## 키워드_SF.판타지 30 530 0.06 0.23 0.00 0.00 0.00 0 1.00
## 키워드_귀신.스릴러 31 530 0.05 0.22 0.00 0.00 0.00 0 1.00
## 관람등급* 32 530 2.27 1.07 2.00 2.22 1.48 1 4.00
## 감독경력 33 530 4.46 4.09 3.00 3.68 2.97 1 30.00
## 다섯배우경력 34 530 22.42 14.79 19.50 20.94 14.08 0 82.00
## 배우대종상점수 35 530 5.96 9.39 0.79 3.90 1.17 0 51.12
## 러닝타임 36 530 113.02 12.99 113.00 112.83 11.86 72 163.00
## 배급사경력 37 530 55.46 48.80 47.00 50.68 63.75 0 170.00
## 해외영화제 38 530 0.11 0.31 0.00 0.01 0.00 0 1.00
## 개봉시즌* 39 530 2.19 0.85 2.00 2.24 1.48 1 3.00
## 관객점유율 40 530 0.02 0.03 0.01 0.01 0.01 0 0.17
## range skew kurtosis se
## 영화명* 529.00 0.00 -1.21 6.65
## 년도* 9.00 -0.02 -1.25 0.13
## 장르* 13.00 0.20 -1.40 0.19
## 키워드_가족 1.00 1.70 0.90 0.02
## 키워드_사랑 1.00 1.45 0.11 0.02
## 키워드_범죄 1.00 1.53 0.33 0.02
## 키워드_살인 1.00 1.74 1.02 0.02
## 키워드_원작 1.00 1.97 1.87 0.02
## 키워드_형사 1.00 2.22 2.92 0.01
## 키워드_청춘 1.00 2.38 3.66 0.01
## 키워드_결혼 1.00 2.69 5.27 0.01
## 키워드_전문직 1.00 2.24 3.03 0.01
## 키워드_실화 1.00 2.73 5.47 0.01
## 키워드_스포츠 1.00 3.99 13.92 0.01
## 키워드_범죄조직 1.00 3.68 11.57 0.01
## 키워드_일제치하 1.00 5.48 28.04 0.01
## 키워드_전쟁.재난 1.00 3.83 12.67 0.01
## 키워드_음악 1.00 3.75 12.10 0.01
## 키워드_사회비판 1.00 3.31 8.98 0.01
## 키워드_조선 1.00 3.90 13.27 0.01
## 키워드_군대.북한 1.00 4.26 16.18 0.01
## 키워드_의료 1.00 3.16 7.97 0.01
## 키워드_여성 1.00 3.01 7.10 0.01
## 키워드_현대사 1.00 4.84 21.45 0.01
## 키워드_죽음 1.00 3.83 12.67 0.01
## 키워드_법정 1.00 4.07 14.62 0.01
## 키워드_우정 1.00 3.42 9.75 0.01
## 키워드_섹스 1.00 3.83 12.67 0.01
## 키워드_미스터리 1.00 3.26 8.63 0.01
## 키워드_SF.판타지 1.00 3.83 12.67 0.01
## 키워드_귀신.스릴러 1.00 3.99 13.92 0.01
## 관람등급* 3.00 0.59 -0.91 0.05
## 감독경력 29.00 2.12 5.97 0.18
## 다섯배우경력 82.00 1.09 1.55 0.64
## 배우대종상점수 51.12 2.07 4.59 0.41
## 러닝타임 91.00 0.22 0.60 0.56
## 배급사경력 170.00 0.56 -0.75 2.12
## 해외영화제 1.00 2.56 4.55 0.01
## 개봉시즌* 2.00 -0.37 -1.50 0.04
## 관객점유율 0.17 2.61 8.19 0.00
종속변수 : 관객점유율
library(lattice)
boxplot(관객점유율~년도, data=data, ylab="관객점유율", col="grey")

독립변수 : 장르
genre.mean <- aggregate(관객점유율 ~ 장르, data=data, mean)
barchart(장르~관객점유율, data=genre.mean, xlab="관객점유율(평균)", col="grey")

독립변수 : 핵심키워드
par(mfrow=c(1,4))
hist(data$키워드_가족)
hist(data$키워드_사랑)
hist(data$키워드_범죄)
hist(data$키워드_살인)

hist(data$키워드_원작)
hist(data$키워드_형사)
hist(data$키워드_청춘)
hist(data$키워드_결혼)

hist(data$키워드_전문직)
hist(data$키워드_실화)
hist(data$키워드_스포츠)
hist(data$키워드_범죄조직)

hist(data$키워드_일제치하)
hist(data$키워드_전쟁.재난)
hist(data$키워드_음악)
hist(data$키워드_사회비판)

hist(data$키워드_조선)
hist(data$키워드_군대.북한)
hist(data$키워드_의료)
hist(data$키워드_여성)

hist(data$키워드_현대사)
hist(data$키워드_죽음)
hist(data$키워드_법정)
hist(data$키워드_우정)

hist(data$키워드_섹스)
hist(data$키워드_미스터리)
hist(data$키워드_SF.판타지)
hist(data$키워드_귀신.스릴러)

독립변수 : 관람 등급
boxplot(관객점유율 ~ 관람등급, data=data, col="grey")

독립변수 : 감독 경력
boxplot(관객점유율 ~ 감독경력, data=data, ylab="관객점유율", xlab="감독경력", col="grey")

독립변수 : 다섯배우 경력
boxplot(관객점유율 ~ 다섯배우경력, data=data, ylab="관객점유율", xlab="다섯배우경력", col="grey")

독립변수 : 배우대종상점수
boxplot(관객점유율 ~ 배우대종상점수, data=data, ylab="관객점유율", xlab="배우대종상점수", col="grey")

독립변수 : 러닝타임
boxplot(관객점유율 ~ 배우대종상점수, data=data, ylab="관객점유율", xlab="배우대종상점수", col="grey")

독립변수 : 배급사경력
boxplot(관객점유율 ~ 배급사경력, data=data, ylab="관객점유율", xlab="배급사경력", col="grey")

독립변수 : 해외영화제
boxplot(관객점유율 ~ 해외영화제, data=data, ylab="관객점유율", xlab="해외영화제", col="grey")

독립변수 : 개봉시즌
genre.mean <- aggregate(관객점유율 ~ 개봉시즌, data=data, mean)
barchart(관객점유율~개봉시즌, data=genre.mean, ylab="관객점유율(평균)", col="grey")

변수간 상관관계
data_num <- data[ ,sapply(data, is.numeric)]
library(corrplot)
corrplot.mixed(cor(data_num))

data_num_cor <- as.data.frame(round(cor(data_num, use="pairwise.complete.obs"),2))
data_num_cor
## 키워드_가족 키워드_사랑 키워드_범죄 키워드_살인
## 키워드_가족 1.00 -0.04 0.10 -0.03
## 키워드_사랑 -0.04 1.00 -0.17 -0.15
## 키워드_범죄 0.10 -0.17 1.00 0.22
## 키워드_살인 -0.03 -0.15 0.22 1.00
## 키워드_원작 0.00 -0.03 -0.02 0.03
## 키워드_형사 -0.03 -0.13 0.32 0.24
## 키워드_청춘 0.03 0.03 -0.08 -0.09
## 키워드_결혼 0.05 0.16 -0.04 -0.02
## 키워드_전문직 0.00 0.13 -0.07 -0.01
## 키워드_실화 -0.05 -0.09 -0.05 -0.05
## 키워드_스포츠 -0.02 -0.02 -0.01 -0.11
## 키워드_범죄조직 0.13 -0.07 0.09 -0.01
## 키워드_일제치하 -0.05 -0.06 -0.03 -0.05
## 키워드_전쟁.재난 -0.05 -0.04 -0.08 -0.07
## 키워드_음악 0.01 -0.03 -0.10 -0.09
## 키워드_사회비판 -0.03 -0.09 0.05 -0.05
## 키워드_조선 -0.07 -0.08 -0.08 -0.07
## 키워드_군대.북한 -0.01 -0.07 0.02 0.04
## 키워드_의료 0.09 0.08 -0.04 0.02
## 키워드_여성 -0.01 0.02 -0.03 0.03
## 키워드_현대사 0.01 -0.03 -0.07 -0.06
## 키워드_죽음 0.04 0.00 0.06 0.15
## 키워드_법정 0.01 -0.05 0.12 0.05
## 키워드_우정 -0.03 0.12 -0.08 -0.04
## 키워드_섹스 -0.05 0.06 -0.10 -0.05
## 키워드_미스터리 0.00 -0.09 0.10 0.16
## 키워드_SF.판타지 -0.11 0.00 -0.10 0.00
## 키워드_귀신.스릴러 0.00 -0.08 0.01 0.16
## 감독경력 0.02 0.00 0.00 -0.05
## 다섯배우경력 -0.04 -0.23 0.09 -0.05
## 배우대종상점수 0.00 -0.08 0.10 0.08
## 러닝타임 -0.07 -0.05 0.05 -0.02
## 배급사경력 -0.06 -0.11 0.03 0.04
## 해외영화제 0.02 -0.07 0.00 0.07
## 관객점유율 -0.03 -0.08 0.06 -0.04
## 키워드_원작 키워드_형사 키워드_청춘 키워드_결혼
## 키워드_가족 0.00 -0.03 0.03 0.05
## 키워드_사랑 -0.03 -0.13 0.03 0.16
## 키워드_범죄 -0.02 0.32 -0.08 -0.04
## 키워드_살인 0.03 0.24 -0.09 -0.02
## 키워드_원작 1.00 0.00 0.03 0.00
## 키워드_형사 0.00 1.00 -0.05 -0.01
## 키워드_청춘 0.03 -0.05 1.00 -0.04
## 키워드_결혼 0.00 -0.01 -0.04 1.00
## 키워드_전문직 -0.03 -0.03 0.02 0.05
## 키워드_실화 -0.03 -0.07 -0.08 -0.09
## 키워드_스포츠 0.00 -0.07 -0.06 -0.02
## 키워드_범죄조직 0.07 0.12 -0.04 -0.03
## 키워드_일제치하 -0.01 -0.03 -0.03 -0.06
## 키워드_전쟁.재난 -0.08 -0.09 -0.06 -0.03
## 키워드_음악 -0.01 -0.10 0.06 0.03
## 키워드_사회비판 0.01 0.09 -0.06 -0.04
## 키워드_조선 0.02 -0.07 -0.09 -0.08
## 키워드_군대.북한 -0.04 -0.01 0.03 -0.01
## 키워드_의료 -0.04 0.06 -0.11 0.02
## 키워드_여성 -0.03 0.03 0.00 0.06
## 키워드_현대사 -0.08 -0.08 0.05 0.00
## 키워드_죽음 0.06 -0.07 -0.06 -0.03
## 키워드_법정 -0.02 0.14 -0.03 -0.05
## 키워드_우정 -0.01 0.01 0.07 -0.01
## 키워드_섹스 -0.06 -0.07 0.04 0.06
## 키워드_미스터리 -0.02 0.11 -0.04 -0.07
## 키워드_SF.판타지 -0.01 -0.07 -0.09 -0.03
## 키워드_귀신.스릴러 0.07 -0.04 -0.03 0.01
## 감독경력 0.11 0.00 -0.07 -0.03
## 다섯배우경력 0.00 0.14 -0.09 -0.07
## 배우대종상점수 -0.01 0.14 -0.11 0.01
## 러닝타임 0.01 0.07 -0.14 0.00
## 배급사경력 0.08 0.07 -0.13 -0.11
## 해외영화제 -0.02 0.07 -0.03 -0.03
## 관객점유율 -0.03 0.05 -0.10 -0.04
## 키워드_전문직 키워드_실화 키워드_스포츠 키워드_범죄조직
## 키워드_가족 0.00 -0.05 -0.02 0.13
## 키워드_사랑 0.13 -0.09 -0.02 -0.07
## 키워드_범죄 -0.07 -0.05 -0.01 0.09
## 키워드_살인 -0.01 -0.05 -0.11 -0.01
## 키워드_원작 -0.03 -0.03 0.00 0.07
## 키워드_형사 -0.03 -0.07 -0.07 0.12
## 키워드_청춘 0.02 -0.08 -0.06 -0.04
## 키워드_결혼 0.05 -0.09 -0.02 -0.03
## 키워드_전문직 1.00 -0.05 -0.04 -0.02
## 키워드_실화 -0.05 1.00 0.12 -0.03
## 키워드_스포츠 -0.04 0.12 1.00 0.01
## 키워드_범죄조직 -0.02 -0.03 0.01 1.00
## 키워드_일제치하 -0.03 0.02 -0.04 -0.04
## 키워드_전쟁.재난 -0.04 0.09 0.02 -0.03
## 키워드_음악 0.10 0.00 -0.06 -0.03
## 키워드_사회비판 -0.06 0.03 -0.07 0.11
## 키워드_조선 -0.07 0.23 -0.06 -0.06
## 키워드_군대.북한 -0.06 0.05 -0.01 -0.06
## 키워드_의료 0.10 -0.05 0.09 0.05
## 키워드_여성 0.05 0.04 -0.04 -0.05
## 키워드_현대사 -0.02 0.17 0.09 -0.01
## 키워드_죽음 -0.02 -0.02 -0.02 -0.06
## 키워드_법정 -0.04 0.10 -0.05 -0.02
## 키워드_우정 -0.01 -0.04 -0.03 0.06
## 키워드_섹스 0.08 -0.05 -0.06 -0.06
## 키워드_미스터리 0.02 0.06 -0.07 0.08
## 키워드_SF.판타지 -0.04 -0.05 0.02 -0.06
## 키워드_귀신.스릴러 0.04 -0.08 -0.06 -0.06
## 감독경력 -0.07 0.20 0.08 0.02
## 다섯배우경력 -0.14 0.19 0.00 0.14
## 배우대종상점수 -0.09 0.09 -0.05 0.08
## 러닝타임 -0.11 0.16 0.12 0.09
## 배급사경력 -0.10 0.06 0.00 0.06
## 해외영화제 -0.08 0.14 -0.05 0.02
## 관객점유율 -0.06 0.21 0.04 0.04
## 키워드_일제치하 키워드_전쟁.재난 키워드_음악
## 키워드_가족 -0.05 -0.05 0.01
## 키워드_사랑 -0.06 -0.04 -0.03
## 키워드_범죄 -0.03 -0.08 -0.10
## 키워드_살인 -0.05 -0.07 -0.09
## 키워드_원작 -0.01 -0.08 -0.01
## 키워드_형사 -0.03 -0.09 -0.10
## 키워드_청춘 -0.03 -0.06 0.06
## 키워드_결혼 -0.06 -0.03 0.03
## 키워드_전문직 -0.03 -0.04 0.10
## 키워드_실화 0.02 0.09 0.00
## 키워드_스포츠 -0.04 0.02 -0.06
## 키워드_범죄조직 -0.04 -0.03 -0.03
## 키워드_일제치하 1.00 0.05 0.05
## 키워드_전쟁.재난 0.05 1.00 0.01
## 키워드_음악 0.05 0.01 1.00
## 키워드_사회비판 -0.05 0.00 -0.04
## 키워드_조선 0.05 0.08 -0.06
## 키워드_군대.북한 -0.04 0.14 -0.02
## 키워드_의료 -0.05 0.02 0.05
## 키워드_여성 0.03 -0.04 -0.02
## 키워드_현대사 -0.03 0.12 0.04
## 키워드_죽음 -0.04 -0.06 -0.03
## 키워드_법정 -0.04 -0.02 0.02
## 키워드_우정 0.04 -0.03 -0.04
## 키워드_섹스 -0.04 -0.06 0.04
## 키워드_미스터리 0.03 -0.04 -0.07
## 키워드_SF.판타지 0.00 0.01 -0.03
## 키워드_귀신.스릴러 -0.04 -0.02 -0.06
## 감독경력 0.11 0.02 -0.06
## 다섯배우경력 0.05 0.14 -0.07
## 배우대종상점수 0.17 0.09 -0.06
## 러닝타임 0.16 0.12 -0.06
## 배급사경력 0.00 0.07 0.02
## 해외영화제 0.12 0.00 0.02
## 관객점유율 0.09 0.26 -0.04
## 키워드_사회비판 키워드_조선 키워드_군대.북한
## 키워드_가족 -0.03 -0.07 -0.01
## 키워드_사랑 -0.09 -0.08 -0.07
## 키워드_범죄 0.05 -0.08 0.02
## 키워드_살인 -0.05 -0.07 0.04
## 키워드_원작 0.01 0.02 -0.04
## 키워드_형사 0.09 -0.07 -0.01
## 키워드_청춘 -0.06 -0.09 0.03
## 키워드_결혼 -0.04 -0.08 -0.01
## 키워드_전문직 -0.06 -0.07 -0.06
## 키워드_실화 0.03 0.23 0.05
## 키워드_스포츠 -0.07 -0.06 -0.01
## 키워드_범죄조직 0.11 -0.06 -0.06
## 키워드_일제치하 -0.05 0.05 -0.04
## 키워드_전쟁.재난 0.00 0.08 0.14
## 키워드_음악 -0.04 -0.06 -0.02
## 키워드_사회비판 1.00 0.09 -0.03
## 키워드_조선 0.09 1.00 -0.05
## 키워드_군대.북한 -0.03 -0.05 1.00
## 키워드_의료 -0.05 -0.07 -0.03
## 키워드_여성 0.00 -0.01 -0.07
## 키워드_현대사 0.06 -0.05 0.24
## 키워드_죽음 0.06 -0.02 -0.05
## 키워드_법정 0.17 -0.06 -0.05
## 키워드_우정 -0.08 -0.03 0.05
## 키워드_섹스 0.03 0.01 -0.05
## 키워드_미스터리 -0.05 0.00 0.01
## 키워드_SF.판타지 -0.07 -0.06 -0.05
## 키워드_귀신.스릴러 -0.07 -0.02 -0.05
## 감독경력 0.00 0.12 -0.02
## 다섯배우경력 0.14 0.20 0.02
## 배우대종상점수 0.02 0.12 -0.04
## 러닝타임 0.08 0.20 0.04
## 배급사경력 0.04 0.14 0.04
## 해외영화제 0.05 0.05 -0.02
## 관객점유율 0.09 0.21 0.03
## 키워드_의료 키워드_여성 키워드_현대사 키워드_죽음
## 키워드_가족 0.09 -0.01 0.01 0.04
## 키워드_사랑 0.08 0.02 -0.03 0.00
## 키워드_범죄 -0.04 -0.03 -0.07 0.06
## 키워드_살인 0.02 0.03 -0.06 0.15
## 키워드_원작 -0.04 -0.03 -0.08 0.06
## 키워드_형사 0.06 0.03 -0.08 -0.07
## 키워드_청춘 -0.11 0.00 0.05 -0.06
## 키워드_결혼 0.02 0.06 0.00 -0.03
## 키워드_전문직 0.10 0.05 -0.02 -0.02
## 키워드_실화 -0.05 0.04 0.17 -0.02
## 키워드_스포츠 0.09 -0.04 0.09 -0.02
## 키워드_범죄조직 0.05 -0.05 -0.01 -0.06
## 키워드_일제치하 -0.05 0.03 -0.03 -0.04
## 키워드_전쟁.재난 0.02 -0.04 0.12 -0.06
## 키워드_음악 0.05 -0.02 0.04 -0.03
## 키워드_사회비판 -0.05 0.00 0.06 0.06
## 키워드_조선 -0.07 -0.01 -0.05 -0.02
## 키워드_군대.북한 -0.03 -0.07 0.24 -0.05
## 키워드_의료 1.00 -0.01 -0.06 0.08
## 키워드_여성 -0.01 1.00 -0.02 -0.01
## 키워드_현대사 -0.06 -0.02 1.00 -0.05
## 키워드_죽음 0.08 -0.01 -0.05 1.00
## 키워드_법정 0.00 0.02 0.00 0.05
## 키워드_우정 0.03 0.05 0.03 0.03
## 키워드_섹스 0.08 0.02 -0.05 -0.06
## 키워드_미스터리 0.03 0.02 -0.06 -0.04
## 키워드_SF.판타지 -0.07 -0.04 -0.05 -0.06
## 키워드_귀신.스릴러 -0.04 0.05 -0.05 0.12
## 감독경력 0.03 0.02 -0.04 -0.06
## 다섯배우경력 -0.08 -0.06 0.02 -0.14
## 배우대종상점수 -0.04 -0.01 0.03 -0.04
## 러닝타임 -0.12 -0.04 0.07 -0.17
## 배급사경력 -0.06 0.02 0.01 -0.16
## 해외영화제 -0.05 -0.06 -0.04 0.00
## 관객점유율 -0.12 -0.05 0.13 -0.08
## 키워드_법정 키워드_우정 키워드_섹스 키워드_미스터리
## 키워드_가족 0.01 -0.03 -0.05 0.00
## 키워드_사랑 -0.05 0.12 0.06 -0.09
## 키워드_범죄 0.12 -0.08 -0.10 0.10
## 키워드_살인 0.05 -0.04 -0.05 0.16
## 키워드_원작 -0.02 -0.01 -0.06 -0.02
## 키워드_형사 0.14 0.01 -0.07 0.11
## 키워드_청춘 -0.03 0.07 0.04 -0.04
## 키워드_결혼 -0.05 -0.01 0.06 -0.07
## 키워드_전문직 -0.04 -0.01 0.08 0.02
## 키워드_실화 0.10 -0.04 -0.05 0.06
## 키워드_스포츠 -0.05 -0.03 -0.06 -0.07
## 키워드_범죄조직 -0.02 0.06 -0.06 0.08
## 키워드_일제치하 -0.04 0.04 -0.04 0.03
## 키워드_전쟁.재난 -0.02 -0.03 -0.06 -0.04
## 키워드_음악 0.02 -0.04 0.04 -0.07
## 키워드_사회비판 0.17 -0.08 0.03 -0.05
## 키워드_조선 -0.06 -0.03 0.01 0.00
## 키워드_군대.북한 -0.05 0.05 -0.05 0.01
## 키워드_의료 0.00 0.03 0.08 0.03
## 키워드_여성 0.02 0.05 0.02 0.02
## 키워드_현대사 0.00 0.03 -0.05 -0.06
## 키워드_죽음 0.05 0.03 -0.06 -0.04
## 키워드_법정 1.00 -0.06 -0.06 0.00
## 키워드_우정 -0.06 1.00 -0.03 0.01
## 키워드_섹스 -0.06 -0.03 1.00 -0.07
## 키워드_미스터리 0.00 0.01 -0.07 1.00
## 키워드_SF.판타지 -0.02 0.00 -0.02 -0.01
## 키워드_귀신.스릴러 -0.05 0.00 -0.06 0.03
## 감독경력 -0.01 -0.01 0.00 0.04
## 다섯배우경력 0.13 -0.08 -0.07 -0.01
## 배우대종상점수 0.20 -0.02 -0.06 -0.01
## 러닝타임 0.12 -0.02 -0.04 -0.04
## 배급사경력 0.05 -0.05 -0.07 0.01
## 해외영화제 -0.05 0.00 -0.06 0.04
## 관객점유율 0.10 -0.04 -0.09 -0.03
## 키워드_SF.판타지 키워드_귀신.스릴러 감독경력
## 키워드_가족 -0.11 0.00 0.02
## 키워드_사랑 0.00 -0.08 0.00
## 키워드_범죄 -0.10 0.01 0.00
## 키워드_살인 0.00 0.16 -0.05
## 키워드_원작 -0.01 0.07 0.11
## 키워드_형사 -0.07 -0.04 0.00
## 키워드_청춘 -0.09 -0.03 -0.07
## 키워드_결혼 -0.03 0.01 -0.03
## 키워드_전문직 -0.04 0.04 -0.07
## 키워드_실화 -0.05 -0.08 0.20
## 키워드_스포츠 0.02 -0.06 0.08
## 키워드_범죄조직 -0.06 -0.06 0.02
## 키워드_일제치하 0.00 -0.04 0.11
## 키워드_전쟁.재난 0.01 -0.02 0.02
## 키워드_음악 -0.03 -0.06 -0.06
## 키워드_사회비판 -0.07 -0.07 0.00
## 키워드_조선 -0.06 -0.02 0.12
## 키워드_군대.북한 -0.05 -0.05 -0.02
## 키워드_의료 -0.07 -0.04 0.03
## 키워드_여성 -0.04 0.05 0.02
## 키워드_현대사 -0.05 -0.05 -0.04
## 키워드_죽음 -0.06 0.12 -0.06
## 키워드_법정 -0.02 -0.05 -0.01
## 키워드_우정 0.00 0.00 -0.01
## 키워드_섹스 -0.02 -0.06 0.00
## 키워드_미스터리 -0.01 0.03 0.04
## 키워드_SF.판타지 1.00 0.05 0.02
## 키워드_귀신.스릴러 0.05 1.00 -0.07
## 감독경력 0.02 -0.07 1.00
## 다섯배우경력 -0.03 -0.14 0.20
## 배우대종상점수 0.02 -0.05 0.17
## 러닝타임 0.00 -0.19 0.26
## 배급사경력 0.11 -0.01 0.22
## 해외영화제 -0.06 -0.03 0.11
## 관객점유율 0.01 -0.05 0.12
## 다섯배우경력 배우대종상점수 러닝타임 배급사경력
## 키워드_가족 -0.04 0.00 -0.07 -0.06
## 키워드_사랑 -0.23 -0.08 -0.05 -0.11
## 키워드_범죄 0.09 0.10 0.05 0.03
## 키워드_살인 -0.05 0.08 -0.02 0.04
## 키워드_원작 0.00 -0.01 0.01 0.08
## 키워드_형사 0.14 0.14 0.07 0.07
## 키워드_청춘 -0.09 -0.11 -0.14 -0.13
## 키워드_결혼 -0.07 0.01 0.00 -0.11
## 키워드_전문직 -0.14 -0.09 -0.11 -0.10
## 키워드_실화 0.19 0.09 0.16 0.06
## 키워드_스포츠 0.00 -0.05 0.12 0.00
## 키워드_범죄조직 0.14 0.08 0.09 0.06
## 키워드_일제치하 0.05 0.17 0.16 0.00
## 키워드_전쟁.재난 0.14 0.09 0.12 0.07
## 키워드_음악 -0.07 -0.06 -0.06 0.02
## 키워드_사회비판 0.14 0.02 0.08 0.04
## 키워드_조선 0.20 0.12 0.20 0.14
## 키워드_군대.북한 0.02 -0.04 0.04 0.04
## 키워드_의료 -0.08 -0.04 -0.12 -0.06
## 키워드_여성 -0.06 -0.01 -0.04 0.02
## 키워드_현대사 0.02 0.03 0.07 0.01
## 키워드_죽음 -0.14 -0.04 -0.17 -0.16
## 키워드_법정 0.13 0.20 0.12 0.05
## 키워드_우정 -0.08 -0.02 -0.02 -0.05
## 키워드_섹스 -0.07 -0.06 -0.04 -0.07
## 키워드_미스터리 -0.01 -0.01 -0.04 0.01
## 키워드_SF.판타지 -0.03 0.02 0.00 0.11
## 키워드_귀신.스릴러 -0.14 -0.05 -0.19 -0.01
## 감독경력 0.20 0.17 0.26 0.22
## 다섯배우경력 1.00 0.49 0.40 0.34
## 배우대종상점수 0.49 1.00 0.39 0.25
## 러닝타임 0.40 0.39 1.00 0.31
## 배급사경력 0.34 0.25 0.31 1.00
## 해외영화제 0.24 0.21 0.09 0.13
## 관객점유율 0.37 0.39 0.44 0.27
## 해외영화제 관객점유율
## 키워드_가족 0.02 -0.03
## 키워드_사랑 -0.07 -0.08
## 키워드_범죄 0.00 0.06
## 키워드_살인 0.07 -0.04
## 키워드_원작 -0.02 -0.03
## 키워드_형사 0.07 0.05
## 키워드_청춘 -0.03 -0.10
## 키워드_결혼 -0.03 -0.04
## 키워드_전문직 -0.08 -0.06
## 키워드_실화 0.14 0.21
## 키워드_스포츠 -0.05 0.04
## 키워드_범죄조직 0.02 0.04
## 키워드_일제치하 0.12 0.09
## 키워드_전쟁.재난 0.00 0.26
## 키워드_음악 0.02 -0.04
## 키워드_사회비판 0.05 0.09
## 키워드_조선 0.05 0.21
## 키워드_군대.북한 -0.02 0.03
## 키워드_의료 -0.05 -0.12
## 키워드_여성 -0.06 -0.05
## 키워드_현대사 -0.04 0.13
## 키워드_죽음 0.00 -0.08
## 키워드_법정 -0.05 0.10
## 키워드_우정 0.00 -0.04
## 키워드_섹스 -0.06 -0.09
## 키워드_미스터리 0.04 -0.03
## 키워드_SF.판타지 -0.06 0.01
## 키워드_귀신.스릴러 -0.03 -0.05
## 감독경력 0.11 0.12
## 다섯배우경력 0.24 0.37
## 배우대종상점수 0.21 0.39
## 러닝타임 0.09 0.44
## 배급사경력 0.13 0.27
## 해외영화제 1.00 0.14
## 관객점유율 0.14 1.00
summary(data_num_cor)
## 키워드_가족 키워드_사랑 키워드_범죄
## Min. :-0.11000 Min. :-0.230000 Min. :-0.17000
## 1st Qu.:-0.04000 1st Qu.:-0.080000 1st Qu.:-0.07000
## Median :-0.01000 Median :-0.050000 Median : 0.00000
## Mean : 0.02086 Mean :-0.009714 Mean : 0.03629
## 3rd Qu.: 0.01500 3rd Qu.: 0.000000 3rd Qu.: 0.07500
## Max. : 1.00000 Max. : 1.000000 Max. : 1.00000
## 키워드_살인 키워드_원작 키워드_형사 키워드_청춘
## Min. :-0.15000 Min. :-0.080 Min. :-0.13000 Min. :-0.140
## 1st Qu.:-0.05000 1st Qu.:-0.030 1st Qu.:-0.07000 1st Qu.:-0.085
## Median :-0.02000 Median :-0.010 Median : 0.00000 Median :-0.040
## Mean : 0.03371 Mean : 0.026 Mean : 0.04686 Mean :-0.010
## 3rd Qu.: 0.04500 3rd Qu.: 0.015 3rd Qu.: 0.08000 3rd Qu.: 0.025
## Max. : 1.00000 Max. : 1.000 Max. : 1.00000 Max. : 1.000
## 키워드_결혼 키워드_전문직 키워드_실화
## Min. :-0.11000 Min. :-0.140000 Min. :-0.09000
## 1st Qu.:-0.04000 1st Qu.:-0.060000 1st Qu.:-0.05000
## Median :-0.02000 Median :-0.030000 Median : 0.02000
## Mean : 0.01457 Mean : 0.008571 Mean : 0.05943
## 3rd Qu.: 0.01000 3rd Qu.: 0.020000 3rd Qu.: 0.11000
## Max. : 1.00000 Max. : 1.000000 Max. : 1.00000
## 키워드_스포츠 키워드_범죄조직 키워드_일제치하 키워드_전쟁.재난
## Min. :-0.11000 Min. :-0.07000 Min. :-0.06000 Min. :-0.090
## 1st Qu.:-0.05500 1st Qu.:-0.04000 1st Qu.:-0.04000 1st Qu.:-0.040
## Median :-0.02000 Median :-0.01000 Median :-0.03000 Median : 0.000
## Mean : 0.01629 Mean : 0.04086 Mean : 0.03457 Mean : 0.040
## 3rd Qu.: 0.01500 3rd Qu.: 0.07500 3rd Qu.: 0.05000 3rd Qu.: 0.075
## Max. : 1.00000 Max. : 1.00000 Max. : 1.00000 Max. : 1.000
## 키워드_음악 키워드_사회비판 키워드_조선
## Min. :-0.10000 Min. :-0.09000 Min. :-0.09000
## 1st Qu.:-0.06000 1st Qu.:-0.05000 1st Qu.:-0.06500
## Median :-0.03000 Median : 0.00000 Median :-0.02000
## Mean : 0.01057 Mean : 0.03657 Mean : 0.03886
## 3rd Qu.: 0.02000 3rd Qu.: 0.06000 3rd Qu.: 0.08500
## Max. : 1.00000 Max. : 1.00000 Max. : 1.00000
## 키워드_군대.북한 키워드_의료 키워드_여성
## Min. :-0.07000 Min. :-0.12000 Min. :-0.07000
## 1st Qu.:-0.05000 1st Qu.:-0.05000 1st Qu.:-0.03500
## Median :-0.02000 Median :-0.01000 Median :-0.01000
## Mean : 0.02486 Mean : 0.02114 Mean : 0.02457
## 3rd Qu.: 0.03000 3rd Qu.: 0.05000 3rd Qu.: 0.02500
## Max. : 1.00000 Max. : 1.00000 Max. : 1.00000
## 키워드_현대사 키워드_죽음 키워드_법정
## Min. :-0.08000 Min. :-0.170000 Min. :-0.06000
## 1st Qu.:-0.05000 1st Qu.:-0.060000 1st Qu.:-0.04500
## Median :-0.01000 Median :-0.030000 Median : 0.00000
## Mean : 0.03486 Mean : 0.008571 Mean : 0.04571
## 3rd Qu.: 0.04500 3rd Qu.: 0.035000 3rd Qu.: 0.07500
## Max. : 1.00000 Max. : 1.000000 Max. : 1.00000
## 키워드_우정 키워드_섹스 키워드_미스터리
## Min. :-0.08000 Min. :-0.1000000 Min. :-0.09000
## 1st Qu.:-0.03500 1st Qu.:-0.0600000 1st Qu.:-0.04000
## Median :-0.01000 Median :-0.0500000 Median : 0.00000
## Mean : 0.02171 Mean : 0.0008571 Mean : 0.02943
## 3rd Qu.: 0.03000 3rd Qu.: 0.0150000 3rd Qu.: 0.03000
## Max. : 1.00000 Max. : 1.0000000 Max. : 1.00000
## 키워드_SF.판타지 키워드_귀신.스릴러 감독경력
## Min. :-0.110000 Min. :-0.190000 Min. :-0.070
## 1st Qu.:-0.060000 1st Qu.:-0.060000 1st Qu.:-0.015
## Median :-0.030000 Median :-0.040000 Median : 0.020
## Mean : 0.003143 Mean : 0.005429 Mean : 0.068
## 3rd Qu.: 0.000000 3rd Qu.: 0.010000 3rd Qu.: 0.110
## Max. : 1.000000 Max. : 1.000000 Max. : 1.000
## 다섯배우경력 배우대종상점수 러닝타임
## Min. :-0.23000 Min. :-0.11000 Min. :-0.19000
## 1st Qu.:-0.07000 1st Qu.:-0.04000 1st Qu.:-0.04000
## Median : 0.02000 Median : 0.02000 Median : 0.05000
## Mean : 0.08571 Mean : 0.09657 Mean : 0.08886
## 3rd Qu.: 0.16500 3rd Qu.: 0.15500 3rd Qu.: 0.14000
## Max. : 1.00000 Max. : 1.00000 Max. : 1.00000
## 배급사경력 해외영화제 관객점유율
## Min. :-0.16000 Min. :-0.08000 Min. :-0.12000
## 1st Qu.:-0.03000 1st Qu.:-0.03500 1st Qu.:-0.04000
## Median : 0.04000 Median : 0.00000 Median : 0.04000
## Mean : 0.07171 Mean : 0.05343 Mean : 0.09057
## 3rd Qu.: 0.09500 3rd Qu.: 0.08000 3rd Qu.: 0.13500
## Max. : 1.00000 Max. : 1.00000 Max. : 1.00000
library(stats)
corrplot.mixed(cor(data_num[,c(5, 10, 13, 14, 17, 21, 29:35)]))

다중회귀분석(multiple regression)
datalm <- lm(관객점유율 ~. , data = subset(data, select = -c(영화명, 년도)))
summary(datalm)
##
## Call:
## lm(formula = 관객점유율 ~ ., data = subset(data, select = -c(영화명,
## 년도)))
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.046554 -0.010433 -0.003032 0.006350 0.101207
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -5.201e-02 1.088e-02 -4.782 2.32e-06 ***
## 장르공포 2.790e-03 6.952e-03 0.401 0.68839
## 장르드라마 1.590e-03 5.364e-03 0.296 0.76698
## 장르로맨틱코메디 -2.197e-03 5.816e-03 -0.378 0.70576
## 장르멜로드라마 -3.852e-03 5.942e-03 -0.648 0.51719
## 장르범죄드라마 5.889e-03 6.752e-03 0.872 0.38353
## 장르범죄스릴러 8.993e-03 6.893e-03 1.305 0.19265
## 장르블랙코메디 -4.797e-03 7.402e-03 -0.648 0.51725
## 장르사극 5.012e-03 7.486e-03 0.670 0.50348
## 장르스릴러 5.890e-03 6.266e-03 0.940 0.34767
## 장르시대극(근현대) 5.472e-03 8.297e-03 0.660 0.50988
## 장르액션 1.405e-02 5.789e-03 2.427 0.01558 *
## 장르어드벤처 2.371e-02 7.343e-03 3.229 0.00133 **
## 장르코메디 6.774e-03 5.424e-03 1.249 0.21232
## 키워드_가족 1.867e-03 2.602e-03 0.717 0.47343
## 키워드_사랑 4.461e-03 2.711e-03 1.646 0.10046
## 키워드_범죄 -3.224e-04 2.642e-03 -0.122 0.90291
## 키워드_살인 -2.471e-03 2.927e-03 -0.844 0.39905
## 키워드_원작 -6.070e-04 2.614e-03 -0.232 0.81651
## 키워드_형사 2.446e-03 3.102e-03 0.789 0.43077
## 키워드_청춘 1.544e-03 2.970e-03 0.520 0.60344
## 키워드_결혼 2.856e-03 3.272e-03 0.873 0.38317
## 키워드_전문직 1.785e-03 2.829e-03 0.631 0.52849
## 키워드_실화 8.478e-03 3.664e-03 2.314 0.02111 *
## 키워드_스포츠 4.007e-03 4.358e-03 0.920 0.35826
## 키워드_범죄조직 -3.941e-03 4.094e-03 -0.963 0.33610
## 키워드_일제치하 -1.190e-04 5.808e-03 -0.020 0.98367
## 키워드_전쟁.재난 1.317e-02 4.653e-03 2.831 0.00484 **
## 키워드_음악 -1.777e-03 4.072e-03 -0.436 0.66279
## 키워드_사회비판 5.479e-03 3.767e-03 1.454 0.14651
## 키워드_조선 5.362e-03 5.840e-03 0.918 0.35901
## 키워드_군대.북한 -3.058e-03 4.679e-03 -0.654 0.51368
## 키워드_의료 -4.935e-03 3.606e-03 -1.369 0.17177
## 키워드_여성 -1.243e-03 3.347e-03 -0.371 0.71057
## 키워드_현대사 1.012e-02 5.278e-03 1.917 0.05587 .
## 키워드_죽음 2.058e-03 4.289e-03 0.480 0.63161
## 키워드_법정 3.115e-03 4.472e-03 0.696 0.48646
## 키워드_우정 -2.420e-03 3.738e-03 -0.647 0.51769
## 키워드_섹스 -1.183e-03 4.199e-03 -0.282 0.77834
## 키워드_미스터리 -1.734e-03 3.641e-03 -0.476 0.63407
## 키워드_SF.판타지 -1.754e-03 4.159e-03 -0.422 0.67339
## 키워드_귀신.스릴러 3.763e-03 4.707e-03 0.800 0.42439
## 관람등급15세이상관람가 -1.658e-03 2.529e-03 -0.655 0.51250
## 관람등급전체관람가 -4.866e-03 5.176e-03 -0.940 0.34764
## 관람등급청소년관람불가 -6.726e-03 3.363e-03 -2.000 0.04605 *
## 감독경력 -1.917e-04 2.419e-04 -0.792 0.42847
## 다섯배우경력 3.538e-05 8.170e-05 0.433 0.66516
## 배우대종상점수 5.000e-04 1.205e-04 4.149 3.96e-05 ***
## 러닝타임 4.924e-04 8.869e-05 5.552 4.69e-08 ***
## 배급사경력 6.129e-05 2.130e-05 2.877 0.00419 **
## 해외영화제 4.626e-03 3.181e-03 1.454 0.14647
## 개봉시즌성수기 1.008e-02 2.740e-03 3.680 0.00026 ***
## 개봉시즌준성수기 9.734e-04 2.286e-03 0.426 0.67046
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.02045 on 477 degrees of freedom
## Multiple R-squared: 0.429, Adjusted R-squared: 0.3668
## F-statistic: 6.892 on 52 and 477 DF, p-value: < 2.2e-16
multicollinearity
library("car")
##
## Attaching package: 'car'
## The following object is masked from 'package:psych':
##
## logit
vif(datalm)
## GVIF Df GVIF^(1/(2*Df))
## 장르 55.633207 13 1.167154
## 키워드_가족 1.241832 1 1.114375
## 키워드_사랑 1.521681 1 1.233564
## 키워드_범죄 1.395216 1 1.181193
## 키워드_살인 1.544938 1 1.242955
## 키워드_원작 1.099040 1 1.048351
## 키워드_형사 1.364302 1 1.168033
## 키워드_청춘 1.155048 1 1.074732
## 키워드_결혼 1.200717 1 1.095772
## 키워드_전문직 1.120739 1 1.058650
## 키워드_실화 1.480386 1 1.216711
## 키워드_스포츠 1.204572 1 1.097530
## 키워드_범죄조직 1.205187 1 1.097810
## 키워드_일제치하 1.252131 1 1.118987
## 키워드_전쟁.재난 1.465515 1 1.210585
## 키워드_음악 1.157527 1 1.075884
## 키워드_사회비판 1.197610 1 1.094354
## 키워드_조선 2.236077 1 1.495352
## 키워드_군대.북한 1.247643 1 1.116980
## 키워드_의료 1.176384 1 1.084612
## 키워드_여성 1.080815 1 1.039622
## 키워드_현대사 1.282151 1 1.132321
## 키워드_죽음 1.245353 1 1.115954
## 키워드_법정 1.225854 1 1.107183
## 키워드_우정 1.121641 1 1.059075
## 키워드_섹스 1.193887 1 1.092652
## 키워드_미스터리 1.145626 1 1.070339
## 키워드_SF.판타지 1.170997 1 1.082126
## 키워드_귀신.스릴러 1.405274 1 1.185442
## 관람등급 2.564465 3 1.169947
## 감독경력 1.239440 1 1.113302
## 다섯배우경력 1.847984 1 1.359406
## 배우대종상점수 1.621727 1 1.273471
## 러닝타임 1.678505 1 1.295571
## 배급사경력 1.367339 1 1.169333
## 해외영화제 1.212064 1 1.100938
## 개봉시즌 1.450195 2 1.097379
regression again
datalm2 <- lm(관객점유율 ~. , data = subset(data, select = -c(영화명, 년도, 장르)))
summary(datalm2)
##
## Call:
## lm(formula = 관객점유율 ~ ., data = subset(data, select = -c(영화명,
## 년도, 장르)))
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.049131 -0.010969 -0.002389 0.005968 0.104348
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -5.113e-02 9.789e-03 -5.223 2.61e-07 ***
## 키워드_가족 2.441e-03 2.551e-03 0.957 0.339031
## 키워드_사랑 8.469e-04 2.498e-03 0.339 0.734765
## 키워드_범죄 1.732e-03 2.589e-03 0.669 0.503751
## 키워드_살인 -1.342e-03 2.791e-03 -0.481 0.630781
## 키워드_원작 -1.389e-03 2.636e-03 -0.527 0.598502
## 키워드_형사 3.732e-03 3.115e-03 1.198 0.231496
## 키워드_청춘 3.566e-04 2.982e-03 0.120 0.904877
## 키워드_결혼 1.364e-04 3.208e-03 0.043 0.966107
## 키워드_전문직 1.310e-03 2.849e-03 0.460 0.645897
## 키워드_실화 7.579e-03 3.467e-03 2.186 0.029287 *
## 키워드_스포츠 3.199e-03 4.397e-03 0.727 0.467310
## 키워드_범죄조직 -1.257e-03 4.114e-03 -0.306 0.759983
## 키워드_일제치하 5.146e-05 5.647e-03 0.009 0.992732
## 키워드_전쟁.재난 1.531e-02 4.212e-03 3.635 0.000308 ***
## 키워드_음악 -1.074e-03 4.106e-03 -0.262 0.793718
## 키워드_사회비판 4.582e-03 3.763e-03 1.218 0.223934
## 키워드_조선 6.177e-03 4.422e-03 1.397 0.163109
## 키워드_군대.북한 -2.266e-03 4.610e-03 -0.491 0.623294
## 키워드_의료 -5.288e-03 3.614e-03 -1.463 0.144043
## 키워드_여성 -2.738e-03 3.383e-03 -0.809 0.418682
## 키워드_현대사 8.347e-03 5.147e-03 1.622 0.105474
## 키워드_죽음 8.006e-04 4.274e-03 0.187 0.851471
## 키워드_법정 2.254e-03 4.489e-03 0.502 0.615880
## 키워드_우정 -1.839e-03 3.746e-03 -0.491 0.623750
## 키워드_섹스 -6.347e-04 4.252e-03 -0.149 0.881410
## 키워드_미스터리 -2.822e-03 3.640e-03 -0.775 0.438527
## 키워드_SF.판타지 5.354e-04 4.139e-03 0.129 0.897147
## 키워드_귀신.스릴러 3.997e-03 4.328e-03 0.924 0.356150
## 관람등급15세이상관람가 -7.717e-04 2.464e-03 -0.313 0.754313
## 관람등급전체관람가 -5.011e-03 5.106e-03 -0.981 0.326848
## 관람등급청소년관람불가 -4.793e-03 3.112e-03 -1.540 0.124131
## 감독경력 -1.396e-04 2.449e-04 -0.570 0.568891
## 다섯배우경력 9.541e-05 8.168e-05 1.168 0.243362
## 배우대종상점수 4.859e-04 1.216e-04 3.997 7.39e-05 ***
## 러닝타임 5.018e-04 8.749e-05 5.736 1.70e-08 ***
## 배급사경력 5.264e-05 2.138e-05 2.462 0.014168 *
## 해외영화제 4.094e-03 3.202e-03 1.279 0.201651
## 개봉시즌성수기 1.307e-02 2.644e-03 4.942 1.06e-06 ***
## 개봉시즌준성수기 1.804e-03 2.277e-03 0.792 0.428638
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.02088 on 490 degrees of freedom
## Multiple R-squared: 0.3882, Adjusted R-squared: 0.3395
## F-statistic: 7.973 on 39 and 490 DF, p-value: < 2.2e-16
데이터 분리 : (2007~2011) VS (2012~2016)
data0711 <- subset(data, 년도 %in% c("2007","2008","2009","2010","2011"))
data1216 <- subset(data, !(년도 %in% c("2007","2008","2009","2010","2011")))
Paired 2-SAMPLE : T-test
data0711_num <- data0711[ ,sapply(data0711, is.numeric)]
data1216_num <- data1216[ ,sapply(data1216, is.numeric)]
t.test(data0711_num, data1216_num, paired=FALSE, var.equal = FALSE)
##
## Welch Two Sample t-test
##
## data: data0711_num and data1216_num
## t = -3.6245, df = 18232, p-value = 0.0002903
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.8581887 -0.5538108
## sample estimates:
## mean of x mean of y
## 5.212687 6.418687
다중회귀분석 (2012~2016)
datalm1216 <- lm(관객점유율 ~. , data = subset(data1216, select = -c(영화명, 년도)))
summary(datalm1216)
##
## Call:
## lm(formula = 관객점유율 ~ ., data = subset(data1216, select = -c(영화명,
## 년도)))
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.038121 -0.009027 -0.001639 0.007024 0.085743
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.301e-02 1.699e-02 -3.709 0.000264 ***
## 장르공포 1.284e-02 9.538e-03 1.347 0.179462
## 장르드라마 3.412e-03 7.519e-03 0.454 0.650410
## 장르로맨틱코메디 6.472e-03 8.234e-03 0.786 0.432714
## 장르멜로드라마 -4.021e-03 8.932e-03 -0.450 0.653019
## 장르범죄드라마 4.538e-03 8.799e-03 0.516 0.606567
## 장르범죄스릴러 1.852e-02 9.904e-03 1.870 0.062805 .
## 장르블랙코메디 -5.511e-03 1.007e-02 -0.547 0.584802
## 장르사극 -4.355e-03 1.063e-02 -0.410 0.682438
## 장르스릴러 1.466e-02 8.471e-03 1.730 0.085050 .
## 장르시대극(근현대) 5.222e-03 1.116e-02 0.468 0.640147
## 장르액션 1.923e-02 8.006e-03 2.402 0.017147 *
## 장르어드벤처 1.841e-02 9.570e-03 1.924 0.055685 .
## 장르코메디 1.636e-02 7.783e-03 2.102 0.036667 *
## 키워드_가족 -2.900e-03 4.029e-03 -0.720 0.472399
## 키워드_사랑 4.973e-03 4.033e-03 1.233 0.218929
## 키워드_범죄 1.399e-03 3.704e-03 0.378 0.706067
## 키워드_살인 -5.774e-03 3.952e-03 -1.461 0.145439
## 키워드_원작 -7.167e-05 3.410e-03 -0.021 0.983252
## 키워드_형사 1.338e-04 4.183e-03 0.032 0.974516
## 키워드_청춘 6.765e-05 4.047e-03 0.017 0.986681
## 키워드_결혼 3.949e-03 5.233e-03 0.755 0.451239
## 키워드_전문직 7.758e-03 4.359e-03 1.780 0.076551 .
## 키워드_실화 1.301e-02 4.272e-03 3.045 0.002615 **
## 키워드_스포츠 -4.480e-04 6.347e-03 -0.071 0.943797
## 키워드_범죄조직 -1.205e-03 5.142e-03 -0.234 0.815029
## 키워드_일제치하 4.860e-03 7.674e-03 0.633 0.527224
## 키워드_전쟁.재난 1.991e-02 6.056e-03 3.288 0.001177 **
## 키워드_음악 -1.633e-03 5.712e-03 -0.286 0.775281
## 키워드_사회비판 1.749e-02 5.319e-03 3.289 0.001172 **
## 키워드_조선 1.226e-02 8.019e-03 1.529 0.127835
## 키워드_군대.북한 -2.456e-03 6.831e-03 -0.360 0.719561
## 키워드_의료 -3.896e-03 4.851e-03 -0.803 0.422714
## 키워드_여성 -9.078e-03 4.922e-03 -1.844 0.066491 .
## 키워드_현대사 1.074e-02 7.538e-03 1.424 0.155778
## 키워드_죽음 7.777e-03 7.917e-03 0.982 0.327004
## 키워드_법정 2.106e-03 5.839e-03 0.361 0.718651
## 키워드_우정 -2.216e-03 5.036e-03 -0.440 0.660424
## 키워드_섹스 9.993e-04 5.727e-03 0.174 0.861636
## 키워드_미스터리 -3.254e-03 4.636e-03 -0.702 0.483517
## 키워드_SF.판타지 -6.198e-03 5.165e-03 -1.200 0.231452
## 키워드_귀신.스릴러 1.542e-03 5.425e-03 0.284 0.776526
## 관람등급15세이상관람가 2.849e-03 3.714e-03 0.767 0.443818
## 관람등급전체관람가 2.767e-03 8.521e-03 0.325 0.745671
## 관람등급청소년관람불가 -6.826e-03 4.970e-03 -1.373 0.171099
## 감독경력 -1.683e-04 3.445e-04 -0.488 0.625702
## 다섯배우경력 1.469e-04 9.815e-05 1.497 0.135887
## 배우대종상점수 7.017e-04 1.596e-04 4.397 1.72e-05 ***
## 러닝타임 4.953e-04 1.275e-04 3.885 0.000136 ***
## 배급사경력 6.238e-05 2.421e-05 2.577 0.010626 *
## 해외영화제 5.648e-03 3.316e-03 1.703 0.089935 .
## 개봉시즌성수기 2.439e-03 3.742e-03 0.652 0.515115
## 개봉시즌준성수기 -3.828e-03 3.103e-03 -1.234 0.218671
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.01865 on 217 degrees of freedom
## Multiple R-squared: 0.6011, Adjusted R-squared: 0.5055
## F-statistic: 6.288 on 52 and 217 DF, p-value: < 2.2e-16
prediction
newdata <- read.csv("box_kor_p2017.csv")
predict(datalm1216, newdata, interval = "prediction", level=0.6011)
## fit lwr upr
## 1 0.027000071 0.006525638 0.047474504
## 2 0.083226581 0.064140120 0.102313043
## 3 0.001117736 -0.016527317 0.018762788
## 4 0.021544811 0.004345689 0.038743933
## 5 -0.008855320 -0.026956768 0.009246128
## 6 0.034956608 0.017088701 0.052824515
## 7 0.052175861 0.031930245 0.072421477
## 8 0.037957515 0.018654842 0.057260188
## 9 0.033065292 0.015455999 0.050674585
## 10 0.036532653 0.016774071 0.056291234