데이터 불러오기

data <- read.csv("box_kor_y.csv")

변수 특징

data$년도 <- as.factor(data$년도)
str(data)
## 'data.frame':    530 obs. of  40 variables:
##  $ 영화명            : Factor w/ 530 levels "10억","1724기방난동사건",..: 339 504 188 435 70 223 81 3 242 175 ...
##  $ 년도              : Factor w/ 10 levels "2007","2008",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ 장르              : Factor w/ 14 levels "가족드라마","공포",..: 4 5 14 4 10 5 14 14 14 14 ...
##  $ 키워드_가족       : int  0 1 0 0 0 0 0 0 0 0 ...
##  $ 키워드_사랑       : int  0 1 1 0 0 1 0 0 0 0 ...
##  $ 키워드_범죄       : int  0 0 0 0 1 0 0 0 0 0 ...
##  $ 키워드_살인       : int  0 0 0 0 1 0 0 0 0 0 ...
##  $ 키워드_원작       : int  0 0 1 0 0 0 0 0 1 0 ...
##  $ 키워드_형사       : int  0 0 0 1 0 1 0 0 0 0 ...
##  $ 키워드_청춘       : int  0 0 0 0 0 1 0 0 0 0 ...
##  $ 키워드_결혼       : int  0 0 0 0 0 1 0 0 0 0 ...
##  $ 키워드_전문직     : int  1 0 0 0 1 1 0 0 0 1 ...
##  $ 키워드_실화       : int  0 0 0 0 1 0 0 0 0 0 ...
##  $ 키워드_스포츠     : int  0 0 0 0 0 0 0 1 0 0 ...
##  $ 키워드_범죄조직   : int  0 0 0 0 0 0 0 0 0 1 ...
##  $ 키워드_일제치하   : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 키워드_전쟁.재난  : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 키워드_음악       : int  0 0 0 0 0 0 0 0 1 0 ...
##  $ 키워드_사회비판   : int  0 0 0 0 0 0 0 0 0 1 ...
##  $ 키워드_조선       : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 키워드_군대.북한  : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 키워드_의료       : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 키워드_여성       : int  0 0 0 0 0 1 0 0 0 0 ...
##  $ 키워드_현대사     : int  0 0 0 0 1 0 0 0 0 0 ...
##  $ 키워드_죽음       : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 키워드_법정       : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 키워드_우정       : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 키워드_섹스       : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 키워드_미스터리   : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 키워드_SF.판타지  : int  1 0 0 0 0 0 0 1 0 0 ...
##  $ 키워드_귀신.스릴러: int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 관람등급          : Factor w/ 4 levels "12세이상관람가",..: 1 1 1 2 1 4 2 2 1 2 ...
##  $ 감독경력          : int  1 4 3 2 4 2 1 4 1 1 ...
##  $ 다섯배우경력      : int  16 12 22 4 21 21 26 23 8 4 ...
##  $ 배우대종상점수    : num  2.5 0 0 0 13.6 ...
##  $ 러닝타임          : int  112 113 129 109 122 103 103 113 114 98 ...
##  $ 배급사경력        : int  31 46 51 46 51 31 46 51 0 46 ...
##  $ 해외영화제        : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 개봉시즌          : Factor w/ 3 levels "비수기","성수기",..: 3 3 3 3 3 3 3 3 3 3 ...
##  $ 관객점유율        : num  0.0024 0.0193 0.0208 0.0176 0.0439 0.0253 0.0137 0.0375 0.0223 0.0032 ...
head(data)
##           영화명 년도         장르 키워드_가족 키워드_사랑 키워드_범죄
## 1     언니가간다 2007 로맨틱코메디           0           0           0
## 2           허브 2007   멜로드라마           1           1           0
## 3        마파도2 2007       코메디           0           1           0
## 4     최강로맨스 2007 로맨틱코메디           0           0           0
## 5     그놈목소리 2007       스릴러           0           0           1
## 6 바람피기좋은날 2007   멜로드라마           0           1           0
##   키워드_살인 키워드_원작 키워드_형사 키워드_청춘 키워드_결혼
## 1           0           0           0           0           0
## 2           0           0           0           0           0
## 3           0           1           0           0           0
## 4           0           0           1           0           0
## 5           1           0           0           0           0
## 6           0           0           1           1           1
##   키워드_전문직 키워드_실화 키워드_스포츠 키워드_범죄조직 키워드_일제치하
## 1             1           0             0               0               0
## 2             0           0             0               0               0
## 3             0           0             0               0               0
## 4             0           0             0               0               0
## 5             1           1             0               0               0
## 6             1           0             0               0               0
##   키워드_전쟁.재난 키워드_음악 키워드_사회비판 키워드_조선
## 1                0           0               0           0
## 2                0           0               0           0
## 3                0           0               0           0
## 4                0           0               0           0
## 5                0           0               0           0
## 6                0           0               0           0
##   키워드_군대.북한 키워드_의료 키워드_여성 키워드_현대사 키워드_죽음
## 1                0           0           0             0           0
## 2                0           0           0             0           0
## 3                0           0           0             0           0
## 4                0           0           0             0           0
## 5                0           0           0             1           0
## 6                0           0           1             0           0
##   키워드_법정 키워드_우정 키워드_섹스 키워드_미스터리 키워드_SF.판타지
## 1           0           0           0               0                1
## 2           0           0           0               0                0
## 3           0           0           0               0                0
## 4           0           0           0               0                0
## 5           0           0           0               0                0
## 6           0           0           0               0                0
##   키워드_귀신.스릴러       관람등급 감독경력 다섯배우경력 배우대종상점수
## 1                  0 12세이상관람가        1           16           2.50
## 2                  0 12세이상관람가        4           12           0.00
## 3                  0 12세이상관람가        3           22           0.00
## 4                  0 15세이상관람가        2            4           0.00
## 5                  0 12세이상관람가        4           21          13.64
## 6                  0 청소년관람불가        2           21          17.50
##   러닝타임 배급사경력 해외영화제 개봉시즌 관객점유율
## 1      112         31          0 준성수기     0.0024
## 2      113         46          0 준성수기     0.0193
## 3      129         51          0 준성수기     0.0208
## 4      109         46          0 준성수기     0.0176
## 5      122         51          0 준성수기     0.0439
## 6      103         31          0 준성수기     0.0253
summary(data)
##                    영화명         년도               장르    
##  10억                 :  1   2007   : 58   드라마      : 78  
##  1724기방난동사건     :  1   2016   : 57   코메디      : 74  
##  1번가의기적          :  1   2012   : 56   로맨틱코메디: 58  
##  26년                 :  1   2015   : 56   액션        : 52  
##  4교시추리영역        :  1   2008   : 54   멜로드라마  : 43  
##  4요일자살을부르는요일:  1   2013   : 54   스릴러      : 37  
##  (Other)              :524   (Other):195   (Other)     :188  
##   키워드_가족      키워드_사랑      키워드_범죄      키워드_살인    
##  Min.   :0.0000   Min.   :0.0000   Min.   :0.0000   Min.   :0.0000  
##  1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.0000  
##  Median :0.0000   Median :0.0000   Median :0.0000   Median :0.0000  
##  Mean   :0.1755   Mean   :0.2057   Mean   :0.1962   Mean   :0.1717  
##  3rd Qu.:0.0000   3rd Qu.:0.0000   3rd Qu.:0.0000   3rd Qu.:0.0000  
##  Max.   :1.0000   Max.   :1.0000   Max.   :1.0000   Max.   :1.0000  
##                                                                     
##   키워드_원작      키워드_형사      키워드_청춘     키워드_결혼     
##  Min.   :0.0000   Min.   :0.0000   Min.   :0.000   Min.   :0.00000  
##  1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.000   1st Qu.:0.00000  
##  Median :0.0000   Median :0.0000   Median :0.000   Median :0.00000  
##  Mean   :0.1491   Mean   :0.1283   Mean   :0.117   Mean   :0.09811  
##  3rd Qu.:0.0000   3rd Qu.:0.0000   3rd Qu.:0.000   3rd Qu.:0.00000  
##  Max.   :1.0000   Max.   :1.0000   Max.   :1.000   Max.   :1.00000  
##                                                                     
##  키워드_전문직     키워드_실화      키워드_스포츠     키워드_범죄조직  
##  Min.   :0.0000   Min.   :0.00000   Min.   :0.00000   Min.   :0.00000  
##  1st Qu.:0.0000   1st Qu.:0.00000   1st Qu.:0.00000   1st Qu.:0.00000  
##  Median :0.0000   Median :0.00000   Median :0.00000   Median :0.00000  
##  Mean   :0.1264   Mean   :0.09623   Mean   :0.05283   Mean   :0.06038  
##  3rd Qu.:0.0000   3rd Qu.:0.00000   3rd Qu.:0.00000   3rd Qu.:0.00000  
##  Max.   :1.0000   Max.   :1.00000   Max.   :1.00000   Max.   :1.00000  
##                                                                        
##  키워드_일제치하   키워드_전쟁.재난  키워드_음악      키워드_사회비판 
##  Min.   :0.00000   Min.   :0.0000   Min.   :0.00000   Min.   :0.0000  
##  1st Qu.:0.00000   1st Qu.:0.0000   1st Qu.:0.00000   1st Qu.:0.0000  
##  Median :0.00000   Median :0.0000   Median :0.00000   Median :0.0000  
##  Mean   :0.03019   Mean   :0.0566   Mean   :0.05849   Mean   :0.0717  
##  3rd Qu.:0.00000   3rd Qu.:0.0000   3rd Qu.:0.00000   3rd Qu.:0.0000  
##  Max.   :1.00000   Max.   :1.0000   Max.   :1.00000   Max.   :1.0000  
##                                                                       
##   키워드_조선      키워드_군대.북한   키워드_의료       키워드_여성     
##  Min.   :0.00000   Min.   :0.00000   Min.   :0.00000   Min.   :0.00000  
##  1st Qu.:0.00000   1st Qu.:0.00000   1st Qu.:0.00000   1st Qu.:0.00000  
##  Median :0.00000   Median :0.00000   Median :0.00000   Median :0.00000  
##  Mean   :0.05472   Mean   :0.04717   Mean   :0.07736   Mean   :0.08302  
##  3rd Qu.:0.00000   3rd Qu.:0.00000   3rd Qu.:0.00000   3rd Qu.:0.00000  
##  Max.   :1.00000   Max.   :1.00000   Max.   :1.00000   Max.   :1.00000  
##                                                                         
##  키워드_현대사      키워드_죽음      키워드_법정       키워드_우정     
##  Min.   :0.00000   Min.   :0.0000   Min.   :0.00000   Min.   :0.00000  
##  1st Qu.:0.00000   1st Qu.:0.0000   1st Qu.:0.00000   1st Qu.:0.00000  
##  Median :0.00000   Median :0.0000   Median :0.00000   Median :0.00000  
##  Mean   :0.03774   Mean   :0.0566   Mean   :0.05094   Mean   :0.06792  
##  3rd Qu.:0.00000   3rd Qu.:0.0000   3rd Qu.:0.00000   3rd Qu.:0.00000  
##  Max.   :1.00000   Max.   :1.0000   Max.   :1.00000   Max.   :1.00000  
##                                                                        
##   키워드_섹스     키워드_미스터리   키워드_SF.판타지 키워드_귀신.스릴러
##  Min.   :0.0000   Min.   :0.00000   Min.   :0.0000   Min.   :0.00000   
##  1st Qu.:0.0000   1st Qu.:0.00000   1st Qu.:0.0000   1st Qu.:0.00000   
##  Median :0.0000   Median :0.00000   Median :0.0000   Median :0.00000   
##  Mean   :0.0566   Mean   :0.07358   Mean   :0.0566   Mean   :0.05283   
##  3rd Qu.:0.0000   3rd Qu.:0.00000   3rd Qu.:0.0000   3rd Qu.:0.00000   
##  Max.   :1.0000   Max.   :1.00000   Max.   :1.0000   Max.   :1.00000   
##                                                                        
##            관람등급      감독경력       다섯배우경력   배우대종상점수  
##  12세이상관람가:125   Min.   : 1.000   Min.   : 0.00   Min.   : 0.000  
##  15세이상관람가:259   1st Qu.: 2.000   1st Qu.:12.00   1st Qu.: 0.000  
##  전체관람가    : 22   Median : 3.000   Median :19.50   Median : 0.790  
##  청소년관람불가:124   Mean   : 4.464   Mean   :22.42   Mean   : 5.957  
##                       3rd Qu.: 6.000   3rd Qu.:30.75   3rd Qu.: 8.750  
##                       Max.   :30.000   Max.   :82.00   Max.   :51.120  
##                                                                        
##     러닝타임       배급사경력       해외영화제         개봉시즌  
##  Min.   : 72.0   Min.   :  0.00   Min.   :0.0000   비수기  :148  
##  1st Qu.:104.2   1st Qu.:  5.00   1st Qu.:0.0000   성수기  :133  
##  Median :113.0   Median : 47.00   Median :0.0000   준성수기:249  
##  Mean   :113.0   Mean   : 55.46   Mean   :0.1057                 
##  3rd Qu.:121.0   3rd Qu.: 93.00   3rd Qu.:0.0000                 
##  Max.   :163.0   Max.   :170.00   Max.   :1.0000                 
##                                                                  
##    관객점유율     
##  Min.   :0.00010  
##  1st Qu.:0.00320  
##  Median :0.00940  
##  Mean   :0.01887  
##  3rd Qu.:0.02355  
##  Max.   :0.17090  
## 

기술 통계량

library(psych)
describe(data)
##                    vars   n   mean     sd median trimmed    mad min    max
## 영화명*               1 530 265.50 153.14 265.50  265.50 196.44   1 530.00
## 년도*                 2 530   5.52   2.93   6.00    5.53   4.45   1  10.00
## 장르*                 3 530   7.50   4.26   7.00    7.42   5.93   1  14.00
## 키워드_가족           4 530   0.18   0.38   0.00    0.09   0.00   0   1.00
## 키워드_사랑           5 530   0.21   0.40   0.00    0.13   0.00   0   1.00
## 키워드_범죄           6 530   0.20   0.40   0.00    0.12   0.00   0   1.00
## 키워드_살인           7 530   0.17   0.38   0.00    0.09   0.00   0   1.00
## 키워드_원작           8 530   0.15   0.36   0.00    0.06   0.00   0   1.00
## 키워드_형사           9 530   0.13   0.33   0.00    0.04   0.00   0   1.00
## 키워드_청춘          10 530   0.12   0.32   0.00    0.02   0.00   0   1.00
## 키워드_결혼          11 530   0.10   0.30   0.00    0.00   0.00   0   1.00
## 키워드_전문직        12 530   0.13   0.33   0.00    0.03   0.00   0   1.00
## 키워드_실화          13 530   0.10   0.30   0.00    0.00   0.00   0   1.00
## 키워드_스포츠        14 530   0.05   0.22   0.00    0.00   0.00   0   1.00
## 키워드_범죄조직      15 530   0.06   0.24   0.00    0.00   0.00   0   1.00
## 키워드_일제치하      16 530   0.03   0.17   0.00    0.00   0.00   0   1.00
## 키워드_전쟁.재난     17 530   0.06   0.23   0.00    0.00   0.00   0   1.00
## 키워드_음악          18 530   0.06   0.23   0.00    0.00   0.00   0   1.00
## 키워드_사회비판      19 530   0.07   0.26   0.00    0.00   0.00   0   1.00
## 키워드_조선          20 530   0.05   0.23   0.00    0.00   0.00   0   1.00
## 키워드_군대.북한     21 530   0.05   0.21   0.00    0.00   0.00   0   1.00
## 키워드_의료          22 530   0.08   0.27   0.00    0.00   0.00   0   1.00
## 키워드_여성          23 530   0.08   0.28   0.00    0.00   0.00   0   1.00
## 키워드_현대사        24 530   0.04   0.19   0.00    0.00   0.00   0   1.00
## 키워드_죽음          25 530   0.06   0.23   0.00    0.00   0.00   0   1.00
## 키워드_법정          26 530   0.05   0.22   0.00    0.00   0.00   0   1.00
## 키워드_우정          27 530   0.07   0.25   0.00    0.00   0.00   0   1.00
## 키워드_섹스          28 530   0.06   0.23   0.00    0.00   0.00   0   1.00
## 키워드_미스터리      29 530   0.07   0.26   0.00    0.00   0.00   0   1.00
## 키워드_SF.판타지     30 530   0.06   0.23   0.00    0.00   0.00   0   1.00
## 키워드_귀신.스릴러   31 530   0.05   0.22   0.00    0.00   0.00   0   1.00
## 관람등급*            32 530   2.27   1.07   2.00    2.22   1.48   1   4.00
## 감독경력             33 530   4.46   4.09   3.00    3.68   2.97   1  30.00
## 다섯배우경력         34 530  22.42  14.79  19.50   20.94  14.08   0  82.00
## 배우대종상점수       35 530   5.96   9.39   0.79    3.90   1.17   0  51.12
## 러닝타임             36 530 113.02  12.99 113.00  112.83  11.86  72 163.00
## 배급사경력           37 530  55.46  48.80  47.00   50.68  63.75   0 170.00
## 해외영화제           38 530   0.11   0.31   0.00    0.01   0.00   0   1.00
## 개봉시즌*            39 530   2.19   0.85   2.00    2.24   1.48   1   3.00
## 관객점유율           40 530   0.02   0.03   0.01    0.01   0.01   0   0.17
##                     range  skew kurtosis   se
## 영화명*            529.00  0.00    -1.21 6.65
## 년도*                9.00 -0.02    -1.25 0.13
## 장르*               13.00  0.20    -1.40 0.19
## 키워드_가족          1.00  1.70     0.90 0.02
## 키워드_사랑          1.00  1.45     0.11 0.02
## 키워드_범죄          1.00  1.53     0.33 0.02
## 키워드_살인          1.00  1.74     1.02 0.02
## 키워드_원작          1.00  1.97     1.87 0.02
## 키워드_형사          1.00  2.22     2.92 0.01
## 키워드_청춘          1.00  2.38     3.66 0.01
## 키워드_결혼          1.00  2.69     5.27 0.01
## 키워드_전문직        1.00  2.24     3.03 0.01
## 키워드_실화          1.00  2.73     5.47 0.01
## 키워드_스포츠        1.00  3.99    13.92 0.01
## 키워드_범죄조직      1.00  3.68    11.57 0.01
## 키워드_일제치하      1.00  5.48    28.04 0.01
## 키워드_전쟁.재난     1.00  3.83    12.67 0.01
## 키워드_음악          1.00  3.75    12.10 0.01
## 키워드_사회비판      1.00  3.31     8.98 0.01
## 키워드_조선          1.00  3.90    13.27 0.01
## 키워드_군대.북한     1.00  4.26    16.18 0.01
## 키워드_의료          1.00  3.16     7.97 0.01
## 키워드_여성          1.00  3.01     7.10 0.01
## 키워드_현대사        1.00  4.84    21.45 0.01
## 키워드_죽음          1.00  3.83    12.67 0.01
## 키워드_법정          1.00  4.07    14.62 0.01
## 키워드_우정          1.00  3.42     9.75 0.01
## 키워드_섹스          1.00  3.83    12.67 0.01
## 키워드_미스터리      1.00  3.26     8.63 0.01
## 키워드_SF.판타지     1.00  3.83    12.67 0.01
## 키워드_귀신.스릴러   1.00  3.99    13.92 0.01
## 관람등급*            3.00  0.59    -0.91 0.05
## 감독경력            29.00  2.12     5.97 0.18
## 다섯배우경력        82.00  1.09     1.55 0.64
## 배우대종상점수      51.12  2.07     4.59 0.41
## 러닝타임            91.00  0.22     0.60 0.56
## 배급사경력         170.00  0.56    -0.75 2.12
## 해외영화제           1.00  2.56     4.55 0.01
## 개봉시즌*            2.00 -0.37    -1.50 0.04
## 관객점유율           0.17  2.61     8.19 0.00

종속변수 : 관객점유율

library(lattice)
boxplot(관객점유율~년도, data=data, ylab="관객점유율", col="grey")

독립변수 : 장르

genre.mean <- aggregate(관객점유율 ~ 장르, data=data, mean)
barchart(장르~관객점유율, data=genre.mean, xlab="관객점유율(평균)", col="grey")

독립변수 : 핵심키워드

par(mfrow=c(1,4))
hist(data$키워드_가족)
hist(data$키워드_사랑)
hist(data$키워드_범죄)
hist(data$키워드_살인)

hist(data$키워드_원작)
hist(data$키워드_형사)
hist(data$키워드_청춘)
hist(data$키워드_결혼)

hist(data$키워드_전문직)
hist(data$키워드_실화)
hist(data$키워드_스포츠)
hist(data$키워드_범죄조직)

hist(data$키워드_일제치하)
hist(data$키워드_전쟁.재난)
hist(data$키워드_음악)
hist(data$키워드_사회비판)

hist(data$키워드_조선)
hist(data$키워드_군대.북한)
hist(data$키워드_의료)
hist(data$키워드_여성)

hist(data$키워드_현대사)
hist(data$키워드_죽음)
hist(data$키워드_법정)
hist(data$키워드_우정)

hist(data$키워드_섹스)
hist(data$키워드_미스터리)
hist(data$키워드_SF.판타지)
hist(data$키워드_귀신.스릴러)

독립변수 : 관람 등급

boxplot(관객점유율 ~ 관람등급, data=data, col="grey")

독립변수 : 감독 경력

boxplot(관객점유율 ~ 감독경력, data=data, ylab="관객점유율", xlab="감독경력", col="grey")

독립변수 : 다섯배우 경력

boxplot(관객점유율 ~ 다섯배우경력, data=data, ylab="관객점유율", xlab="다섯배우경력", col="grey")

독립변수 : 배우대종상점수

boxplot(관객점유율 ~ 배우대종상점수, data=data, ylab="관객점유율", xlab="배우대종상점수", col="grey")

독립변수 : 러닝타임

boxplot(관객점유율 ~ 배우대종상점수, data=data, ylab="관객점유율", xlab="배우대종상점수", col="grey")

독립변수 : 배급사경력

boxplot(관객점유율 ~ 배급사경력, data=data, ylab="관객점유율", xlab="배급사경력", col="grey")

독립변수 : 해외영화제

boxplot(관객점유율 ~ 해외영화제, data=data, ylab="관객점유율", xlab="해외영화제", col="grey")

독립변수 : 개봉시즌

genre.mean <- aggregate(관객점유율 ~ 개봉시즌, data=data, mean)
barchart(관객점유율~개봉시즌, data=genre.mean, ylab="관객점유율(평균)", col="grey")

변수간 상관관계

data_num <- data[ ,sapply(data, is.numeric)]
library(corrplot)
corrplot.mixed(cor(data_num))

data_num_cor <- as.data.frame(round(cor(data_num, use="pairwise.complete.obs"),2))
data_num_cor
##                    키워드_가족 키워드_사랑 키워드_범죄 키워드_살인
## 키워드_가족               1.00       -0.04        0.10       -0.03
## 키워드_사랑              -0.04        1.00       -0.17       -0.15
## 키워드_범죄               0.10       -0.17        1.00        0.22
## 키워드_살인              -0.03       -0.15        0.22        1.00
## 키워드_원작               0.00       -0.03       -0.02        0.03
## 키워드_형사              -0.03       -0.13        0.32        0.24
## 키워드_청춘               0.03        0.03       -0.08       -0.09
## 키워드_결혼               0.05        0.16       -0.04       -0.02
## 키워드_전문직             0.00        0.13       -0.07       -0.01
## 키워드_실화              -0.05       -0.09       -0.05       -0.05
## 키워드_스포츠            -0.02       -0.02       -0.01       -0.11
## 키워드_범죄조직           0.13       -0.07        0.09       -0.01
## 키워드_일제치하          -0.05       -0.06       -0.03       -0.05
## 키워드_전쟁.재난         -0.05       -0.04       -0.08       -0.07
## 키워드_음악               0.01       -0.03       -0.10       -0.09
## 키워드_사회비판          -0.03       -0.09        0.05       -0.05
## 키워드_조선              -0.07       -0.08       -0.08       -0.07
## 키워드_군대.북한         -0.01       -0.07        0.02        0.04
## 키워드_의료               0.09        0.08       -0.04        0.02
## 키워드_여성              -0.01        0.02       -0.03        0.03
## 키워드_현대사             0.01       -0.03       -0.07       -0.06
## 키워드_죽음               0.04        0.00        0.06        0.15
## 키워드_법정               0.01       -0.05        0.12        0.05
## 키워드_우정              -0.03        0.12       -0.08       -0.04
## 키워드_섹스              -0.05        0.06       -0.10       -0.05
## 키워드_미스터리           0.00       -0.09        0.10        0.16
## 키워드_SF.판타지         -0.11        0.00       -0.10        0.00
## 키워드_귀신.스릴러        0.00       -0.08        0.01        0.16
## 감독경력                  0.02        0.00        0.00       -0.05
## 다섯배우경력             -0.04       -0.23        0.09       -0.05
## 배우대종상점수            0.00       -0.08        0.10        0.08
## 러닝타임                 -0.07       -0.05        0.05       -0.02
## 배급사경력               -0.06       -0.11        0.03        0.04
## 해외영화제                0.02       -0.07        0.00        0.07
## 관객점유율               -0.03       -0.08        0.06       -0.04
##                    키워드_원작 키워드_형사 키워드_청춘 키워드_결혼
## 키워드_가족               0.00       -0.03        0.03        0.05
## 키워드_사랑              -0.03       -0.13        0.03        0.16
## 키워드_범죄              -0.02        0.32       -0.08       -0.04
## 키워드_살인               0.03        0.24       -0.09       -0.02
## 키워드_원작               1.00        0.00        0.03        0.00
## 키워드_형사               0.00        1.00       -0.05       -0.01
## 키워드_청춘               0.03       -0.05        1.00       -0.04
## 키워드_결혼               0.00       -0.01       -0.04        1.00
## 키워드_전문직            -0.03       -0.03        0.02        0.05
## 키워드_실화              -0.03       -0.07       -0.08       -0.09
## 키워드_스포츠             0.00       -0.07       -0.06       -0.02
## 키워드_범죄조직           0.07        0.12       -0.04       -0.03
## 키워드_일제치하          -0.01       -0.03       -0.03       -0.06
## 키워드_전쟁.재난         -0.08       -0.09       -0.06       -0.03
## 키워드_음악              -0.01       -0.10        0.06        0.03
## 키워드_사회비판           0.01        0.09       -0.06       -0.04
## 키워드_조선               0.02       -0.07       -0.09       -0.08
## 키워드_군대.북한         -0.04       -0.01        0.03       -0.01
## 키워드_의료              -0.04        0.06       -0.11        0.02
## 키워드_여성              -0.03        0.03        0.00        0.06
## 키워드_현대사            -0.08       -0.08        0.05        0.00
## 키워드_죽음               0.06       -0.07       -0.06       -0.03
## 키워드_법정              -0.02        0.14       -0.03       -0.05
## 키워드_우정              -0.01        0.01        0.07       -0.01
## 키워드_섹스              -0.06       -0.07        0.04        0.06
## 키워드_미스터리          -0.02        0.11       -0.04       -0.07
## 키워드_SF.판타지         -0.01       -0.07       -0.09       -0.03
## 키워드_귀신.스릴러        0.07       -0.04       -0.03        0.01
## 감독경력                  0.11        0.00       -0.07       -0.03
## 다섯배우경력              0.00        0.14       -0.09       -0.07
## 배우대종상점수           -0.01        0.14       -0.11        0.01
## 러닝타임                  0.01        0.07       -0.14        0.00
## 배급사경력                0.08        0.07       -0.13       -0.11
## 해외영화제               -0.02        0.07       -0.03       -0.03
## 관객점유율               -0.03        0.05       -0.10       -0.04
##                    키워드_전문직 키워드_실화 키워드_스포츠 키워드_범죄조직
## 키워드_가족                 0.00       -0.05         -0.02            0.13
## 키워드_사랑                 0.13       -0.09         -0.02           -0.07
## 키워드_범죄                -0.07       -0.05         -0.01            0.09
## 키워드_살인                -0.01       -0.05         -0.11           -0.01
## 키워드_원작                -0.03       -0.03          0.00            0.07
## 키워드_형사                -0.03       -0.07         -0.07            0.12
## 키워드_청춘                 0.02       -0.08         -0.06           -0.04
## 키워드_결혼                 0.05       -0.09         -0.02           -0.03
## 키워드_전문직               1.00       -0.05         -0.04           -0.02
## 키워드_실화                -0.05        1.00          0.12           -0.03
## 키워드_스포츠              -0.04        0.12          1.00            0.01
## 키워드_범죄조직            -0.02       -0.03          0.01            1.00
## 키워드_일제치하            -0.03        0.02         -0.04           -0.04
## 키워드_전쟁.재난           -0.04        0.09          0.02           -0.03
## 키워드_음악                 0.10        0.00         -0.06           -0.03
## 키워드_사회비판            -0.06        0.03         -0.07            0.11
## 키워드_조선                -0.07        0.23         -0.06           -0.06
## 키워드_군대.북한           -0.06        0.05         -0.01           -0.06
## 키워드_의료                 0.10       -0.05          0.09            0.05
## 키워드_여성                 0.05        0.04         -0.04           -0.05
## 키워드_현대사              -0.02        0.17          0.09           -0.01
## 키워드_죽음                -0.02       -0.02         -0.02           -0.06
## 키워드_법정                -0.04        0.10         -0.05           -0.02
## 키워드_우정                -0.01       -0.04         -0.03            0.06
## 키워드_섹스                 0.08       -0.05         -0.06           -0.06
## 키워드_미스터리             0.02        0.06         -0.07            0.08
## 키워드_SF.판타지           -0.04       -0.05          0.02           -0.06
## 키워드_귀신.스릴러          0.04       -0.08         -0.06           -0.06
## 감독경력                   -0.07        0.20          0.08            0.02
## 다섯배우경력               -0.14        0.19          0.00            0.14
## 배우대종상점수             -0.09        0.09         -0.05            0.08
## 러닝타임                   -0.11        0.16          0.12            0.09
## 배급사경력                 -0.10        0.06          0.00            0.06
## 해외영화제                 -0.08        0.14         -0.05            0.02
## 관객점유율                 -0.06        0.21          0.04            0.04
##                    키워드_일제치하 키워드_전쟁.재난 키워드_음악
## 키워드_가족                  -0.05            -0.05        0.01
## 키워드_사랑                  -0.06            -0.04       -0.03
## 키워드_범죄                  -0.03            -0.08       -0.10
## 키워드_살인                  -0.05            -0.07       -0.09
## 키워드_원작                  -0.01            -0.08       -0.01
## 키워드_형사                  -0.03            -0.09       -0.10
## 키워드_청춘                  -0.03            -0.06        0.06
## 키워드_결혼                  -0.06            -0.03        0.03
## 키워드_전문직                -0.03            -0.04        0.10
## 키워드_실화                   0.02             0.09        0.00
## 키워드_스포츠                -0.04             0.02       -0.06
## 키워드_범죄조직              -0.04            -0.03       -0.03
## 키워드_일제치하               1.00             0.05        0.05
## 키워드_전쟁.재난              0.05             1.00        0.01
## 키워드_음악                   0.05             0.01        1.00
## 키워드_사회비판              -0.05             0.00       -0.04
## 키워드_조선                   0.05             0.08       -0.06
## 키워드_군대.북한             -0.04             0.14       -0.02
## 키워드_의료                  -0.05             0.02        0.05
## 키워드_여성                   0.03            -0.04       -0.02
## 키워드_현대사                -0.03             0.12        0.04
## 키워드_죽음                  -0.04            -0.06       -0.03
## 키워드_법정                  -0.04            -0.02        0.02
## 키워드_우정                   0.04            -0.03       -0.04
## 키워드_섹스                  -0.04            -0.06        0.04
## 키워드_미스터리               0.03            -0.04       -0.07
## 키워드_SF.판타지              0.00             0.01       -0.03
## 키워드_귀신.스릴러           -0.04            -0.02       -0.06
## 감독경력                      0.11             0.02       -0.06
## 다섯배우경력                  0.05             0.14       -0.07
## 배우대종상점수                0.17             0.09       -0.06
## 러닝타임                      0.16             0.12       -0.06
## 배급사경력                    0.00             0.07        0.02
## 해외영화제                    0.12             0.00        0.02
## 관객점유율                    0.09             0.26       -0.04
##                    키워드_사회비판 키워드_조선 키워드_군대.북한
## 키워드_가족                  -0.03       -0.07            -0.01
## 키워드_사랑                  -0.09       -0.08            -0.07
## 키워드_범죄                   0.05       -0.08             0.02
## 키워드_살인                  -0.05       -0.07             0.04
## 키워드_원작                   0.01        0.02            -0.04
## 키워드_형사                   0.09       -0.07            -0.01
## 키워드_청춘                  -0.06       -0.09             0.03
## 키워드_결혼                  -0.04       -0.08            -0.01
## 키워드_전문직                -0.06       -0.07            -0.06
## 키워드_실화                   0.03        0.23             0.05
## 키워드_스포츠                -0.07       -0.06            -0.01
## 키워드_범죄조직               0.11       -0.06            -0.06
## 키워드_일제치하              -0.05        0.05            -0.04
## 키워드_전쟁.재난              0.00        0.08             0.14
## 키워드_음악                  -0.04       -0.06            -0.02
## 키워드_사회비판               1.00        0.09            -0.03
## 키워드_조선                   0.09        1.00            -0.05
## 키워드_군대.북한             -0.03       -0.05             1.00
## 키워드_의료                  -0.05       -0.07            -0.03
## 키워드_여성                   0.00       -0.01            -0.07
## 키워드_현대사                 0.06       -0.05             0.24
## 키워드_죽음                   0.06       -0.02            -0.05
## 키워드_법정                   0.17       -0.06            -0.05
## 키워드_우정                  -0.08       -0.03             0.05
## 키워드_섹스                   0.03        0.01            -0.05
## 키워드_미스터리              -0.05        0.00             0.01
## 키워드_SF.판타지             -0.07       -0.06            -0.05
## 키워드_귀신.스릴러           -0.07       -0.02            -0.05
## 감독경력                      0.00        0.12            -0.02
## 다섯배우경력                  0.14        0.20             0.02
## 배우대종상점수                0.02        0.12            -0.04
## 러닝타임                      0.08        0.20             0.04
## 배급사경력                    0.04        0.14             0.04
## 해외영화제                    0.05        0.05            -0.02
## 관객점유율                    0.09        0.21             0.03
##                    키워드_의료 키워드_여성 키워드_현대사 키워드_죽음
## 키워드_가족               0.09       -0.01          0.01        0.04
## 키워드_사랑               0.08        0.02         -0.03        0.00
## 키워드_범죄              -0.04       -0.03         -0.07        0.06
## 키워드_살인               0.02        0.03         -0.06        0.15
## 키워드_원작              -0.04       -0.03         -0.08        0.06
## 키워드_형사               0.06        0.03         -0.08       -0.07
## 키워드_청춘              -0.11        0.00          0.05       -0.06
## 키워드_결혼               0.02        0.06          0.00       -0.03
## 키워드_전문직             0.10        0.05         -0.02       -0.02
## 키워드_실화              -0.05        0.04          0.17       -0.02
## 키워드_스포츠             0.09       -0.04          0.09       -0.02
## 키워드_범죄조직           0.05       -0.05         -0.01       -0.06
## 키워드_일제치하          -0.05        0.03         -0.03       -0.04
## 키워드_전쟁.재난          0.02       -0.04          0.12       -0.06
## 키워드_음악               0.05       -0.02          0.04       -0.03
## 키워드_사회비판          -0.05        0.00          0.06        0.06
## 키워드_조선              -0.07       -0.01         -0.05       -0.02
## 키워드_군대.북한         -0.03       -0.07          0.24       -0.05
## 키워드_의료               1.00       -0.01         -0.06        0.08
## 키워드_여성              -0.01        1.00         -0.02       -0.01
## 키워드_현대사            -0.06       -0.02          1.00       -0.05
## 키워드_죽음               0.08       -0.01         -0.05        1.00
## 키워드_법정               0.00        0.02          0.00        0.05
## 키워드_우정               0.03        0.05          0.03        0.03
## 키워드_섹스               0.08        0.02         -0.05       -0.06
## 키워드_미스터리           0.03        0.02         -0.06       -0.04
## 키워드_SF.판타지         -0.07       -0.04         -0.05       -0.06
## 키워드_귀신.스릴러       -0.04        0.05         -0.05        0.12
## 감독경력                  0.03        0.02         -0.04       -0.06
## 다섯배우경력             -0.08       -0.06          0.02       -0.14
## 배우대종상점수           -0.04       -0.01          0.03       -0.04
## 러닝타임                 -0.12       -0.04          0.07       -0.17
## 배급사경력               -0.06        0.02          0.01       -0.16
## 해외영화제               -0.05       -0.06         -0.04        0.00
## 관객점유율               -0.12       -0.05          0.13       -0.08
##                    키워드_법정 키워드_우정 키워드_섹스 키워드_미스터리
## 키워드_가족               0.01       -0.03       -0.05            0.00
## 키워드_사랑              -0.05        0.12        0.06           -0.09
## 키워드_범죄               0.12       -0.08       -0.10            0.10
## 키워드_살인               0.05       -0.04       -0.05            0.16
## 키워드_원작              -0.02       -0.01       -0.06           -0.02
## 키워드_형사               0.14        0.01       -0.07            0.11
## 키워드_청춘              -0.03        0.07        0.04           -0.04
## 키워드_결혼              -0.05       -0.01        0.06           -0.07
## 키워드_전문직            -0.04       -0.01        0.08            0.02
## 키워드_실화               0.10       -0.04       -0.05            0.06
## 키워드_스포츠            -0.05       -0.03       -0.06           -0.07
## 키워드_범죄조직          -0.02        0.06       -0.06            0.08
## 키워드_일제치하          -0.04        0.04       -0.04            0.03
## 키워드_전쟁.재난         -0.02       -0.03       -0.06           -0.04
## 키워드_음악               0.02       -0.04        0.04           -0.07
## 키워드_사회비판           0.17       -0.08        0.03           -0.05
## 키워드_조선              -0.06       -0.03        0.01            0.00
## 키워드_군대.북한         -0.05        0.05       -0.05            0.01
## 키워드_의료               0.00        0.03        0.08            0.03
## 키워드_여성               0.02        0.05        0.02            0.02
## 키워드_현대사             0.00        0.03       -0.05           -0.06
## 키워드_죽음               0.05        0.03       -0.06           -0.04
## 키워드_법정               1.00       -0.06       -0.06            0.00
## 키워드_우정              -0.06        1.00       -0.03            0.01
## 키워드_섹스              -0.06       -0.03        1.00           -0.07
## 키워드_미스터리           0.00        0.01       -0.07            1.00
## 키워드_SF.판타지         -0.02        0.00       -0.02           -0.01
## 키워드_귀신.스릴러       -0.05        0.00       -0.06            0.03
## 감독경력                 -0.01       -0.01        0.00            0.04
## 다섯배우경력              0.13       -0.08       -0.07           -0.01
## 배우대종상점수            0.20       -0.02       -0.06           -0.01
## 러닝타임                  0.12       -0.02       -0.04           -0.04
## 배급사경력                0.05       -0.05       -0.07            0.01
## 해외영화제               -0.05        0.00       -0.06            0.04
## 관객점유율                0.10       -0.04       -0.09           -0.03
##                    키워드_SF.판타지 키워드_귀신.스릴러 감독경력
## 키워드_가족                   -0.11               0.00     0.02
## 키워드_사랑                    0.00              -0.08     0.00
## 키워드_범죄                   -0.10               0.01     0.00
## 키워드_살인                    0.00               0.16    -0.05
## 키워드_원작                   -0.01               0.07     0.11
## 키워드_형사                   -0.07              -0.04     0.00
## 키워드_청춘                   -0.09              -0.03    -0.07
## 키워드_결혼                   -0.03               0.01    -0.03
## 키워드_전문직                 -0.04               0.04    -0.07
## 키워드_실화                   -0.05              -0.08     0.20
## 키워드_스포츠                  0.02              -0.06     0.08
## 키워드_범죄조직               -0.06              -0.06     0.02
## 키워드_일제치하                0.00              -0.04     0.11
## 키워드_전쟁.재난               0.01              -0.02     0.02
## 키워드_음악                   -0.03              -0.06    -0.06
## 키워드_사회비판               -0.07              -0.07     0.00
## 키워드_조선                   -0.06              -0.02     0.12
## 키워드_군대.북한              -0.05              -0.05    -0.02
## 키워드_의료                   -0.07              -0.04     0.03
## 키워드_여성                   -0.04               0.05     0.02
## 키워드_현대사                 -0.05              -0.05    -0.04
## 키워드_죽음                   -0.06               0.12    -0.06
## 키워드_법정                   -0.02              -0.05    -0.01
## 키워드_우정                    0.00               0.00    -0.01
## 키워드_섹스                   -0.02              -0.06     0.00
## 키워드_미스터리               -0.01               0.03     0.04
## 키워드_SF.판타지               1.00               0.05     0.02
## 키워드_귀신.스릴러             0.05               1.00    -0.07
## 감독경력                       0.02              -0.07     1.00
## 다섯배우경력                  -0.03              -0.14     0.20
## 배우대종상점수                 0.02              -0.05     0.17
## 러닝타임                       0.00              -0.19     0.26
## 배급사경력                     0.11              -0.01     0.22
## 해외영화제                    -0.06              -0.03     0.11
## 관객점유율                     0.01              -0.05     0.12
##                    다섯배우경력 배우대종상점수 러닝타임 배급사경력
## 키워드_가족               -0.04           0.00    -0.07      -0.06
## 키워드_사랑               -0.23          -0.08    -0.05      -0.11
## 키워드_범죄                0.09           0.10     0.05       0.03
## 키워드_살인               -0.05           0.08    -0.02       0.04
## 키워드_원작                0.00          -0.01     0.01       0.08
## 키워드_형사                0.14           0.14     0.07       0.07
## 키워드_청춘               -0.09          -0.11    -0.14      -0.13
## 키워드_결혼               -0.07           0.01     0.00      -0.11
## 키워드_전문직             -0.14          -0.09    -0.11      -0.10
## 키워드_실화                0.19           0.09     0.16       0.06
## 키워드_스포츠              0.00          -0.05     0.12       0.00
## 키워드_범죄조직            0.14           0.08     0.09       0.06
## 키워드_일제치하            0.05           0.17     0.16       0.00
## 키워드_전쟁.재난           0.14           0.09     0.12       0.07
## 키워드_음악               -0.07          -0.06    -0.06       0.02
## 키워드_사회비판            0.14           0.02     0.08       0.04
## 키워드_조선                0.20           0.12     0.20       0.14
## 키워드_군대.북한           0.02          -0.04     0.04       0.04
## 키워드_의료               -0.08          -0.04    -0.12      -0.06
## 키워드_여성               -0.06          -0.01    -0.04       0.02
## 키워드_현대사              0.02           0.03     0.07       0.01
## 키워드_죽음               -0.14          -0.04    -0.17      -0.16
## 키워드_법정                0.13           0.20     0.12       0.05
## 키워드_우정               -0.08          -0.02    -0.02      -0.05
## 키워드_섹스               -0.07          -0.06    -0.04      -0.07
## 키워드_미스터리           -0.01          -0.01    -0.04       0.01
## 키워드_SF.판타지          -0.03           0.02     0.00       0.11
## 키워드_귀신.스릴러        -0.14          -0.05    -0.19      -0.01
## 감독경력                   0.20           0.17     0.26       0.22
## 다섯배우경력               1.00           0.49     0.40       0.34
## 배우대종상점수             0.49           1.00     0.39       0.25
## 러닝타임                   0.40           0.39     1.00       0.31
## 배급사경력                 0.34           0.25     0.31       1.00
## 해외영화제                 0.24           0.21     0.09       0.13
## 관객점유율                 0.37           0.39     0.44       0.27
##                    해외영화제 관객점유율
## 키워드_가족              0.02      -0.03
## 키워드_사랑             -0.07      -0.08
## 키워드_범죄              0.00       0.06
## 키워드_살인              0.07      -0.04
## 키워드_원작             -0.02      -0.03
## 키워드_형사              0.07       0.05
## 키워드_청춘             -0.03      -0.10
## 키워드_결혼             -0.03      -0.04
## 키워드_전문직           -0.08      -0.06
## 키워드_실화              0.14       0.21
## 키워드_스포츠           -0.05       0.04
## 키워드_범죄조직          0.02       0.04
## 키워드_일제치하          0.12       0.09
## 키워드_전쟁.재난         0.00       0.26
## 키워드_음악              0.02      -0.04
## 키워드_사회비판          0.05       0.09
## 키워드_조선              0.05       0.21
## 키워드_군대.북한        -0.02       0.03
## 키워드_의료             -0.05      -0.12
## 키워드_여성             -0.06      -0.05
## 키워드_현대사           -0.04       0.13
## 키워드_죽음              0.00      -0.08
## 키워드_법정             -0.05       0.10
## 키워드_우정              0.00      -0.04
## 키워드_섹스             -0.06      -0.09
## 키워드_미스터리          0.04      -0.03
## 키워드_SF.판타지        -0.06       0.01
## 키워드_귀신.스릴러      -0.03      -0.05
## 감독경력                 0.11       0.12
## 다섯배우경력             0.24       0.37
## 배우대종상점수           0.21       0.39
## 러닝타임                 0.09       0.44
## 배급사경력               0.13       0.27
## 해외영화제               1.00       0.14
## 관객점유율               0.14       1.00
summary(data_num_cor)
##   키워드_가족        키워드_사랑         키워드_범죄      
##  Min.   :-0.11000   Min.   :-0.230000   Min.   :-0.17000  
##  1st Qu.:-0.04000   1st Qu.:-0.080000   1st Qu.:-0.07000  
##  Median :-0.01000   Median :-0.050000   Median : 0.00000  
##  Mean   : 0.02086   Mean   :-0.009714   Mean   : 0.03629  
##  3rd Qu.: 0.01500   3rd Qu.: 0.000000   3rd Qu.: 0.07500  
##  Max.   : 1.00000   Max.   : 1.000000   Max.   : 1.00000  
##   키워드_살인        키워드_원작      키워드_형사        키워드_청춘    
##  Min.   :-0.15000   Min.   :-0.080   Min.   :-0.13000   Min.   :-0.140  
##  1st Qu.:-0.05000   1st Qu.:-0.030   1st Qu.:-0.07000   1st Qu.:-0.085  
##  Median :-0.02000   Median :-0.010   Median : 0.00000   Median :-0.040  
##  Mean   : 0.03371   Mean   : 0.026   Mean   : 0.04686   Mean   :-0.010  
##  3rd Qu.: 0.04500   3rd Qu.: 0.015   3rd Qu.: 0.08000   3rd Qu.: 0.025  
##  Max.   : 1.00000   Max.   : 1.000   Max.   : 1.00000   Max.   : 1.000  
##   키워드_결혼       키워드_전문직        키워드_실화      
##  Min.   :-0.11000   Min.   :-0.140000   Min.   :-0.09000  
##  1st Qu.:-0.04000   1st Qu.:-0.060000   1st Qu.:-0.05000  
##  Median :-0.02000   Median :-0.030000   Median : 0.02000  
##  Mean   : 0.01457   Mean   : 0.008571   Mean   : 0.05943  
##  3rd Qu.: 0.01000   3rd Qu.: 0.020000   3rd Qu.: 0.11000  
##  Max.   : 1.00000   Max.   : 1.000000   Max.   : 1.00000  
##  키워드_스포츠      키워드_범죄조직    키워드_일제치하    키워드_전쟁.재난
##  Min.   :-0.11000   Min.   :-0.07000   Min.   :-0.06000   Min.   :-0.090  
##  1st Qu.:-0.05500   1st Qu.:-0.04000   1st Qu.:-0.04000   1st Qu.:-0.040  
##  Median :-0.02000   Median :-0.01000   Median :-0.03000   Median : 0.000  
##  Mean   : 0.01629   Mean   : 0.04086   Mean   : 0.03457   Mean   : 0.040  
##  3rd Qu.: 0.01500   3rd Qu.: 0.07500   3rd Qu.: 0.05000   3rd Qu.: 0.075  
##  Max.   : 1.00000   Max.   : 1.00000   Max.   : 1.00000   Max.   : 1.000  
##   키워드_음악       키워드_사회비판     키워드_조선      
##  Min.   :-0.10000   Min.   :-0.09000   Min.   :-0.09000  
##  1st Qu.:-0.06000   1st Qu.:-0.05000   1st Qu.:-0.06500  
##  Median :-0.03000   Median : 0.00000   Median :-0.02000  
##  Mean   : 0.01057   Mean   : 0.03657   Mean   : 0.03886  
##  3rd Qu.: 0.02000   3rd Qu.: 0.06000   3rd Qu.: 0.08500  
##  Max.   : 1.00000   Max.   : 1.00000   Max.   : 1.00000  
##  키워드_군대.북한    키워드_의료        키워드_여성      
##  Min.   :-0.07000   Min.   :-0.12000   Min.   :-0.07000  
##  1st Qu.:-0.05000   1st Qu.:-0.05000   1st Qu.:-0.03500  
##  Median :-0.02000   Median :-0.01000   Median :-0.01000  
##  Mean   : 0.02486   Mean   : 0.02114   Mean   : 0.02457  
##  3rd Qu.: 0.03000   3rd Qu.: 0.05000   3rd Qu.: 0.02500  
##  Max.   : 1.00000   Max.   : 1.00000   Max.   : 1.00000  
##  키워드_현대사       키워드_죽음         키워드_법정      
##  Min.   :-0.08000   Min.   :-0.170000   Min.   :-0.06000  
##  1st Qu.:-0.05000   1st Qu.:-0.060000   1st Qu.:-0.04500  
##  Median :-0.01000   Median :-0.030000   Median : 0.00000  
##  Mean   : 0.03486   Mean   : 0.008571   Mean   : 0.04571  
##  3rd Qu.: 0.04500   3rd Qu.: 0.035000   3rd Qu.: 0.07500  
##  Max.   : 1.00000   Max.   : 1.000000   Max.   : 1.00000  
##   키워드_우정        키워드_섹스         키워드_미스터리   
##  Min.   :-0.08000   Min.   :-0.1000000   Min.   :-0.09000  
##  1st Qu.:-0.03500   1st Qu.:-0.0600000   1st Qu.:-0.04000  
##  Median :-0.01000   Median :-0.0500000   Median : 0.00000  
##  Mean   : 0.02171   Mean   : 0.0008571   Mean   : 0.02943  
##  3rd Qu.: 0.03000   3rd Qu.: 0.0150000   3rd Qu.: 0.03000  
##  Max.   : 1.00000   Max.   : 1.0000000   Max.   : 1.00000  
##  키워드_SF.판타지    키워드_귀신.스릴러     감독경력     
##  Min.   :-0.110000   Min.   :-0.190000   Min.   :-0.070  
##  1st Qu.:-0.060000   1st Qu.:-0.060000   1st Qu.:-0.015  
##  Median :-0.030000   Median :-0.040000   Median : 0.020  
##  Mean   : 0.003143   Mean   : 0.005429   Mean   : 0.068  
##  3rd Qu.: 0.000000   3rd Qu.: 0.010000   3rd Qu.: 0.110  
##  Max.   : 1.000000   Max.   : 1.000000   Max.   : 1.000  
##   다섯배우경력      배우대종상점수        러닝타임       
##  Min.   :-0.23000   Min.   :-0.11000   Min.   :-0.19000  
##  1st Qu.:-0.07000   1st Qu.:-0.04000   1st Qu.:-0.04000  
##  Median : 0.02000   Median : 0.02000   Median : 0.05000  
##  Mean   : 0.08571   Mean   : 0.09657   Mean   : 0.08886  
##  3rd Qu.: 0.16500   3rd Qu.: 0.15500   3rd Qu.: 0.14000  
##  Max.   : 1.00000   Max.   : 1.00000   Max.   : 1.00000  
##    배급사경력         해외영화제         관객점유율      
##  Min.   :-0.16000   Min.   :-0.08000   Min.   :-0.12000  
##  1st Qu.:-0.03000   1st Qu.:-0.03500   1st Qu.:-0.04000  
##  Median : 0.04000   Median : 0.00000   Median : 0.04000  
##  Mean   : 0.07171   Mean   : 0.05343   Mean   : 0.09057  
##  3rd Qu.: 0.09500   3rd Qu.: 0.08000   3rd Qu.: 0.13500  
##  Max.   : 1.00000   Max.   : 1.00000   Max.   : 1.00000
library(stats)
corrplot.mixed(cor(data_num[,c(5, 10, 13, 14, 17, 21, 29:35)]))

다중회귀분석(multiple regression)

datalm <- lm(관객점유율 ~. , data = subset(data, select = -c(영화명, 년도)))
summary(datalm)
## 
## Call:
## lm(formula = 관객점유율 ~ ., data = subset(data, select = -c(영화명, 
##     년도)))
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.046554 -0.010433 -0.003032  0.006350  0.101207 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            -5.201e-02  1.088e-02  -4.782 2.32e-06 ***
## 장르공포                2.790e-03  6.952e-03   0.401  0.68839    
## 장르드라마              1.590e-03  5.364e-03   0.296  0.76698    
## 장르로맨틱코메디       -2.197e-03  5.816e-03  -0.378  0.70576    
## 장르멜로드라마         -3.852e-03  5.942e-03  -0.648  0.51719    
## 장르범죄드라마          5.889e-03  6.752e-03   0.872  0.38353    
## 장르범죄스릴러          8.993e-03  6.893e-03   1.305  0.19265    
## 장르블랙코메디         -4.797e-03  7.402e-03  -0.648  0.51725    
## 장르사극                5.012e-03  7.486e-03   0.670  0.50348    
## 장르스릴러              5.890e-03  6.266e-03   0.940  0.34767    
## 장르시대극(근현대)      5.472e-03  8.297e-03   0.660  0.50988    
## 장르액션                1.405e-02  5.789e-03   2.427  0.01558 *  
## 장르어드벤처            2.371e-02  7.343e-03   3.229  0.00133 ** 
## 장르코메디              6.774e-03  5.424e-03   1.249  0.21232    
## 키워드_가족             1.867e-03  2.602e-03   0.717  0.47343    
## 키워드_사랑             4.461e-03  2.711e-03   1.646  0.10046    
## 키워드_범죄            -3.224e-04  2.642e-03  -0.122  0.90291    
## 키워드_살인            -2.471e-03  2.927e-03  -0.844  0.39905    
## 키워드_원작            -6.070e-04  2.614e-03  -0.232  0.81651    
## 키워드_형사             2.446e-03  3.102e-03   0.789  0.43077    
## 키워드_청춘             1.544e-03  2.970e-03   0.520  0.60344    
## 키워드_결혼             2.856e-03  3.272e-03   0.873  0.38317    
## 키워드_전문직           1.785e-03  2.829e-03   0.631  0.52849    
## 키워드_실화             8.478e-03  3.664e-03   2.314  0.02111 *  
## 키워드_스포츠           4.007e-03  4.358e-03   0.920  0.35826    
## 키워드_범죄조직        -3.941e-03  4.094e-03  -0.963  0.33610    
## 키워드_일제치하        -1.190e-04  5.808e-03  -0.020  0.98367    
## 키워드_전쟁.재난        1.317e-02  4.653e-03   2.831  0.00484 ** 
## 키워드_음악            -1.777e-03  4.072e-03  -0.436  0.66279    
## 키워드_사회비판         5.479e-03  3.767e-03   1.454  0.14651    
## 키워드_조선             5.362e-03  5.840e-03   0.918  0.35901    
## 키워드_군대.북한       -3.058e-03  4.679e-03  -0.654  0.51368    
## 키워드_의료            -4.935e-03  3.606e-03  -1.369  0.17177    
## 키워드_여성            -1.243e-03  3.347e-03  -0.371  0.71057    
## 키워드_현대사           1.012e-02  5.278e-03   1.917  0.05587 .  
## 키워드_죽음             2.058e-03  4.289e-03   0.480  0.63161    
## 키워드_법정             3.115e-03  4.472e-03   0.696  0.48646    
## 키워드_우정            -2.420e-03  3.738e-03  -0.647  0.51769    
## 키워드_섹스            -1.183e-03  4.199e-03  -0.282  0.77834    
## 키워드_미스터리        -1.734e-03  3.641e-03  -0.476  0.63407    
## 키워드_SF.판타지       -1.754e-03  4.159e-03  -0.422  0.67339    
## 키워드_귀신.스릴러      3.763e-03  4.707e-03   0.800  0.42439    
## 관람등급15세이상관람가 -1.658e-03  2.529e-03  -0.655  0.51250    
## 관람등급전체관람가     -4.866e-03  5.176e-03  -0.940  0.34764    
## 관람등급청소년관람불가 -6.726e-03  3.363e-03  -2.000  0.04605 *  
## 감독경력               -1.917e-04  2.419e-04  -0.792  0.42847    
## 다섯배우경력            3.538e-05  8.170e-05   0.433  0.66516    
## 배우대종상점수          5.000e-04  1.205e-04   4.149 3.96e-05 ***
## 러닝타임                4.924e-04  8.869e-05   5.552 4.69e-08 ***
## 배급사경력              6.129e-05  2.130e-05   2.877  0.00419 ** 
## 해외영화제              4.626e-03  3.181e-03   1.454  0.14647    
## 개봉시즌성수기          1.008e-02  2.740e-03   3.680  0.00026 ***
## 개봉시즌준성수기        9.734e-04  2.286e-03   0.426  0.67046    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.02045 on 477 degrees of freedom
## Multiple R-squared:  0.429,  Adjusted R-squared:  0.3668 
## F-statistic: 6.892 on 52 and 477 DF,  p-value: < 2.2e-16

multicollinearity

library("car")
## 
## Attaching package: 'car'
## The following object is masked from 'package:psych':
## 
##     logit
vif(datalm)
##                         GVIF Df GVIF^(1/(2*Df))
## 장르               55.633207 13        1.167154
## 키워드_가족         1.241832  1        1.114375
## 키워드_사랑         1.521681  1        1.233564
## 키워드_범죄         1.395216  1        1.181193
## 키워드_살인         1.544938  1        1.242955
## 키워드_원작         1.099040  1        1.048351
## 키워드_형사         1.364302  1        1.168033
## 키워드_청춘         1.155048  1        1.074732
## 키워드_결혼         1.200717  1        1.095772
## 키워드_전문직       1.120739  1        1.058650
## 키워드_실화         1.480386  1        1.216711
## 키워드_스포츠       1.204572  1        1.097530
## 키워드_범죄조직     1.205187  1        1.097810
## 키워드_일제치하     1.252131  1        1.118987
## 키워드_전쟁.재난    1.465515  1        1.210585
## 키워드_음악         1.157527  1        1.075884
## 키워드_사회비판     1.197610  1        1.094354
## 키워드_조선         2.236077  1        1.495352
## 키워드_군대.북한    1.247643  1        1.116980
## 키워드_의료         1.176384  1        1.084612
## 키워드_여성         1.080815  1        1.039622
## 키워드_현대사       1.282151  1        1.132321
## 키워드_죽음         1.245353  1        1.115954
## 키워드_법정         1.225854  1        1.107183
## 키워드_우정         1.121641  1        1.059075
## 키워드_섹스         1.193887  1        1.092652
## 키워드_미스터리     1.145626  1        1.070339
## 키워드_SF.판타지    1.170997  1        1.082126
## 키워드_귀신.스릴러  1.405274  1        1.185442
## 관람등급            2.564465  3        1.169947
## 감독경력            1.239440  1        1.113302
## 다섯배우경력        1.847984  1        1.359406
## 배우대종상점수      1.621727  1        1.273471
## 러닝타임            1.678505  1        1.295571
## 배급사경력          1.367339  1        1.169333
## 해외영화제          1.212064  1        1.100938
## 개봉시즌            1.450195  2        1.097379

regression again

datalm2 <- lm(관객점유율 ~. , data = subset(data, select = -c(영화명, 년도, 장르)))
summary(datalm2)
## 
## Call:
## lm(formula = 관객점유율 ~ ., data = subset(data, select = -c(영화명, 
##     년도, 장르)))
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.049131 -0.010969 -0.002389  0.005968  0.104348 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            -5.113e-02  9.789e-03  -5.223 2.61e-07 ***
## 키워드_가족             2.441e-03  2.551e-03   0.957 0.339031    
## 키워드_사랑             8.469e-04  2.498e-03   0.339 0.734765    
## 키워드_범죄             1.732e-03  2.589e-03   0.669 0.503751    
## 키워드_살인            -1.342e-03  2.791e-03  -0.481 0.630781    
## 키워드_원작            -1.389e-03  2.636e-03  -0.527 0.598502    
## 키워드_형사             3.732e-03  3.115e-03   1.198 0.231496    
## 키워드_청춘             3.566e-04  2.982e-03   0.120 0.904877    
## 키워드_결혼             1.364e-04  3.208e-03   0.043 0.966107    
## 키워드_전문직           1.310e-03  2.849e-03   0.460 0.645897    
## 키워드_실화             7.579e-03  3.467e-03   2.186 0.029287 *  
## 키워드_스포츠           3.199e-03  4.397e-03   0.727 0.467310    
## 키워드_범죄조직        -1.257e-03  4.114e-03  -0.306 0.759983    
## 키워드_일제치하         5.146e-05  5.647e-03   0.009 0.992732    
## 키워드_전쟁.재난        1.531e-02  4.212e-03   3.635 0.000308 ***
## 키워드_음악            -1.074e-03  4.106e-03  -0.262 0.793718    
## 키워드_사회비판         4.582e-03  3.763e-03   1.218 0.223934    
## 키워드_조선             6.177e-03  4.422e-03   1.397 0.163109    
## 키워드_군대.북한       -2.266e-03  4.610e-03  -0.491 0.623294    
## 키워드_의료            -5.288e-03  3.614e-03  -1.463 0.144043    
## 키워드_여성            -2.738e-03  3.383e-03  -0.809 0.418682    
## 키워드_현대사           8.347e-03  5.147e-03   1.622 0.105474    
## 키워드_죽음             8.006e-04  4.274e-03   0.187 0.851471    
## 키워드_법정             2.254e-03  4.489e-03   0.502 0.615880    
## 키워드_우정            -1.839e-03  3.746e-03  -0.491 0.623750    
## 키워드_섹스            -6.347e-04  4.252e-03  -0.149 0.881410    
## 키워드_미스터리        -2.822e-03  3.640e-03  -0.775 0.438527    
## 키워드_SF.판타지        5.354e-04  4.139e-03   0.129 0.897147    
## 키워드_귀신.스릴러      3.997e-03  4.328e-03   0.924 0.356150    
## 관람등급15세이상관람가 -7.717e-04  2.464e-03  -0.313 0.754313    
## 관람등급전체관람가     -5.011e-03  5.106e-03  -0.981 0.326848    
## 관람등급청소년관람불가 -4.793e-03  3.112e-03  -1.540 0.124131    
## 감독경력               -1.396e-04  2.449e-04  -0.570 0.568891    
## 다섯배우경력            9.541e-05  8.168e-05   1.168 0.243362    
## 배우대종상점수          4.859e-04  1.216e-04   3.997 7.39e-05 ***
## 러닝타임                5.018e-04  8.749e-05   5.736 1.70e-08 ***
## 배급사경력              5.264e-05  2.138e-05   2.462 0.014168 *  
## 해외영화제              4.094e-03  3.202e-03   1.279 0.201651    
## 개봉시즌성수기          1.307e-02  2.644e-03   4.942 1.06e-06 ***
## 개봉시즌준성수기        1.804e-03  2.277e-03   0.792 0.428638    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.02088 on 490 degrees of freedom
## Multiple R-squared:  0.3882, Adjusted R-squared:  0.3395 
## F-statistic: 7.973 on 39 and 490 DF,  p-value: < 2.2e-16

데이터 분리 : (2007~2011) VS (2012~2016)

data0711 <- subset(data, 년도 %in% c("2007","2008","2009","2010","2011"))
data1216 <- subset(data, !(년도 %in% c("2007","2008","2009","2010","2011")))

Paired 2-SAMPLE : T-test

data0711_num <- data0711[ ,sapply(data0711, is.numeric)]
data1216_num <- data1216[ ,sapply(data1216, is.numeric)]
t.test(data0711_num, data1216_num, paired=FALSE, var.equal = FALSE)
## 
##  Welch Two Sample t-test
## 
## data:  data0711_num and data1216_num
## t = -3.6245, df = 18232, p-value = 0.0002903
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.8581887 -0.5538108
## sample estimates:
## mean of x mean of y 
##  5.212687  6.418687

다중회귀분석 (2012~2016)

datalm1216 <- lm(관객점유율 ~. , data = subset(data1216, select = -c(영화명, 년도)))
summary(datalm1216)
## 
## Call:
## lm(formula = 관객점유율 ~ ., data = subset(data1216, select = -c(영화명, 
##     년도)))
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.038121 -0.009027 -0.001639  0.007024  0.085743 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            -6.301e-02  1.699e-02  -3.709 0.000264 ***
## 장르공포                1.284e-02  9.538e-03   1.347 0.179462    
## 장르드라마              3.412e-03  7.519e-03   0.454 0.650410    
## 장르로맨틱코메디        6.472e-03  8.234e-03   0.786 0.432714    
## 장르멜로드라마         -4.021e-03  8.932e-03  -0.450 0.653019    
## 장르범죄드라마          4.538e-03  8.799e-03   0.516 0.606567    
## 장르범죄스릴러          1.852e-02  9.904e-03   1.870 0.062805 .  
## 장르블랙코메디         -5.511e-03  1.007e-02  -0.547 0.584802    
## 장르사극               -4.355e-03  1.063e-02  -0.410 0.682438    
## 장르스릴러              1.466e-02  8.471e-03   1.730 0.085050 .  
## 장르시대극(근현대)      5.222e-03  1.116e-02   0.468 0.640147    
## 장르액션                1.923e-02  8.006e-03   2.402 0.017147 *  
## 장르어드벤처            1.841e-02  9.570e-03   1.924 0.055685 .  
## 장르코메디              1.636e-02  7.783e-03   2.102 0.036667 *  
## 키워드_가족            -2.900e-03  4.029e-03  -0.720 0.472399    
## 키워드_사랑             4.973e-03  4.033e-03   1.233 0.218929    
## 키워드_범죄             1.399e-03  3.704e-03   0.378 0.706067    
## 키워드_살인            -5.774e-03  3.952e-03  -1.461 0.145439    
## 키워드_원작            -7.167e-05  3.410e-03  -0.021 0.983252    
## 키워드_형사             1.338e-04  4.183e-03   0.032 0.974516    
## 키워드_청춘             6.765e-05  4.047e-03   0.017 0.986681    
## 키워드_결혼             3.949e-03  5.233e-03   0.755 0.451239    
## 키워드_전문직           7.758e-03  4.359e-03   1.780 0.076551 .  
## 키워드_실화             1.301e-02  4.272e-03   3.045 0.002615 ** 
## 키워드_스포츠          -4.480e-04  6.347e-03  -0.071 0.943797    
## 키워드_범죄조직        -1.205e-03  5.142e-03  -0.234 0.815029    
## 키워드_일제치하         4.860e-03  7.674e-03   0.633 0.527224    
## 키워드_전쟁.재난        1.991e-02  6.056e-03   3.288 0.001177 ** 
## 키워드_음악            -1.633e-03  5.712e-03  -0.286 0.775281    
## 키워드_사회비판         1.749e-02  5.319e-03   3.289 0.001172 ** 
## 키워드_조선             1.226e-02  8.019e-03   1.529 0.127835    
## 키워드_군대.북한       -2.456e-03  6.831e-03  -0.360 0.719561    
## 키워드_의료            -3.896e-03  4.851e-03  -0.803 0.422714    
## 키워드_여성            -9.078e-03  4.922e-03  -1.844 0.066491 .  
## 키워드_현대사           1.074e-02  7.538e-03   1.424 0.155778    
## 키워드_죽음             7.777e-03  7.917e-03   0.982 0.327004    
## 키워드_법정             2.106e-03  5.839e-03   0.361 0.718651    
## 키워드_우정            -2.216e-03  5.036e-03  -0.440 0.660424    
## 키워드_섹스             9.993e-04  5.727e-03   0.174 0.861636    
## 키워드_미스터리        -3.254e-03  4.636e-03  -0.702 0.483517    
## 키워드_SF.판타지       -6.198e-03  5.165e-03  -1.200 0.231452    
## 키워드_귀신.스릴러      1.542e-03  5.425e-03   0.284 0.776526    
## 관람등급15세이상관람가  2.849e-03  3.714e-03   0.767 0.443818    
## 관람등급전체관람가      2.767e-03  8.521e-03   0.325 0.745671    
## 관람등급청소년관람불가 -6.826e-03  4.970e-03  -1.373 0.171099    
## 감독경력               -1.683e-04  3.445e-04  -0.488 0.625702    
## 다섯배우경력            1.469e-04  9.815e-05   1.497 0.135887    
## 배우대종상점수          7.017e-04  1.596e-04   4.397 1.72e-05 ***
## 러닝타임                4.953e-04  1.275e-04   3.885 0.000136 ***
## 배급사경력              6.238e-05  2.421e-05   2.577 0.010626 *  
## 해외영화제              5.648e-03  3.316e-03   1.703 0.089935 .  
## 개봉시즌성수기          2.439e-03  3.742e-03   0.652 0.515115    
## 개봉시즌준성수기       -3.828e-03  3.103e-03  -1.234 0.218671    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.01865 on 217 degrees of freedom
## Multiple R-squared:  0.6011, Adjusted R-squared:  0.5055 
## F-statistic: 6.288 on 52 and 217 DF,  p-value: < 2.2e-16

prediction

newdata <- read.csv("box_kor_p2017.csv")
predict(datalm1216, newdata, interval = "prediction", level=0.6011)
##             fit          lwr         upr
## 1   0.027000071  0.006525638 0.047474504
## 2   0.083226581  0.064140120 0.102313043
## 3   0.001117736 -0.016527317 0.018762788
## 4   0.021544811  0.004345689 0.038743933
## 5  -0.008855320 -0.026956768 0.009246128
## 6   0.034956608  0.017088701 0.052824515
## 7   0.052175861  0.031930245 0.072421477
## 8   0.037957515  0.018654842 0.057260188
## 9   0.033065292  0.015455999 0.050674585
## 10  0.036532653  0.016774071 0.056291234