資料來源來自Kaggle中IMDB 的電影資料集

其中資料部分只有1916年後到現今共5043筆資料

先處理異常值,使用平均數填補缺失值

先看Summaary

##     color           director_name      num_critic_for_reviews
##  Length:4858        Length:4858        Min.   :  1           
##  Class :character   Class :character   1st Qu.: 50           
##  Mode  :character   Mode  :character   Median :111           
##                                        Mean   :141           
##                                        3rd Qu.:196           
##                                        Max.   :813           
##                                        NA's   :43            
##     duration     director_facebook_likes actor_3_facebook_likes
##  Min.   :  7.0   Min.   :    0.0         Min.   :    0.0       
##  1st Qu.: 93.0   1st Qu.:    7.0         1st Qu.:  146.8       
##  Median :103.0   Median :   50.0         Median :  384.0       
##  Mean   :107.1   Mean   :  706.7         Mean   :  660.8       
##  3rd Qu.:118.0   3rd Qu.:  198.0         3rd Qu.:  642.0       
##  Max.   :334.0   Max.   :23000.0         Max.   :23000.0       
##  NA's   :13      NA's   :97              NA's   :18            
##  actor_2_name       actor_1_facebook_likes     gross          
##  Length:4858        Min.   :     0         Min.   :      703  
##  Class :character   1st Qu.:   634         1st Qu.:  6002756  
##  Mode  :character   Median :  1000         Median : 26539321  
##                     Mean   :  6713         Mean   : 49405351  
##                     3rd Qu.: 11000         3rd Qu.: 63695760  
##                     Max.   :640000         Max.   :760505847  
##                     NA's   :6              NA's   :821        
##     genres          actor_1_name       movie_title       
##  Length:4858        Length:4858        Length:4858       
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##                                                          
##                                                          
##                                                          
##                                                          
##  num_voted_users   cast_total_facebook_likes actor_3_name      
##  Min.   :      5   Min.   :     0            Length:4858       
##  1st Qu.:   9040   1st Qu.:  1495            Class :character  
##  Median :  35540   Median :  3173            Mode  :character  
##  Mean   :  85049   Mean   :  9933                              
##  3rd Qu.:  98677   3rd Qu.: 14120                              
##  Max.   :1689764   Max.   :656730                              
##                                                                
##  facenumber_in_poster plot_keywords      movie_imdb_link   
##  Min.   : 0.000       Length:4858        Length:4858       
##  1st Qu.: 0.000       Class :character   Class :character  
##  Median : 1.000       Mode  :character   Mode  :character  
##  Mean   : 1.377                                            
##  3rd Qu.: 2.000                                            
##  Max.   :43.000                                            
##  NA's   :12                                                
##  num_user_for_reviews   language           country         
##  Min.   :   1.0       Length:4858        Length:4858       
##  1st Qu.:  68.0       Class :character   Class :character  
##  Median : 160.0       Mode  :character   Mode  :character  
##  Mean   : 275.4                                            
##  3rd Qu.: 332.0                                            
##  Max.   :4667.0                                            
##  NA's   :16                                                
##  content_rating         budget            title_year  
##  Length:4858        Min.   :2.180e+02   Min.   :1916  
##  Class :character   1st Qu.:6.000e+06   1st Qu.:1999  
##  Mode  :character   Median :2.000e+07   Median :2005  
##                     Mean   :3.593e+07   Mean   :2002  
##                     3rd Qu.:4.500e+07   3rd Qu.:2011  
##                     Max.   :2.400e+09   Max.   :2016  
##                     NA's   :458         NA's   :98    
##  actor_2_facebook_likes   imdb_score     aspect_ratio   
##  Min.   :     0.0       Min.   :1.600   Min.   : 1.180  
##  1st Qu.:   298.8       1st Qu.:5.800   1st Qu.: 1.850  
##  Median :   611.0       Median :6.600   Median : 2.350  
##  Mean   :  1692.0       Mean   :6.426   Mean   : 2.211  
##  3rd Qu.:   925.0       3rd Qu.:7.200   3rd Qu.: 2.350  
##  Max.   :137000.0       Max.   :9.500   Max.   :16.000  
##  NA's   :10                             NA's   :305     
##  movie_facebook_likes
##  Min.   :     0.0    
##  1st Qu.:     0.0    
##  Median :   168.5    
##  Mean   :  7599.6    
##  3rd Qu.:  3000.0    
##  Max.   :349000.0    
## 

資料分布開始

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##       1      50     111     141     196     813      43

在這5043部電影中,最低評論數為1,最高評論數為813,大多數電影收到的評論不到200條。

數據的大部分電影都是在2000年之後製作的。

美國製作的電影數量最多。

由於IMDB是1990年後開始的,而且主要都是美國電影 因此我將資料先資料預處理,主要分析內容就縮小為“2000年後美國電影”

由圖可看出PG-13和R,這種類的電影分級是大眾最常看的

由圖可看出在2008年金融風暴,電影票房出現近二十年來最高。 這值得我們好好去分析……

在這十六年之間,冒險、喜劇、動作,是IMDb收錄資料中營收最高的三種類型; 而新聞、短片、紀錄則是營收最低的三種類型。 其中,我們可以從顏色色塊的高矮變化見到。

由圖可看出影評分數與票房並沒有出現相關性(R^2=0.21)

電影得分的分佈圖

我們可以看到電影得分的分布大部分集中在 5 ~ 7.5 分左右。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.600   5.600   6.400   6.248   7.000   9.100

電影預算的數量級分佈圖

電影的預算以千萬元等級居多,大部分的預算落在數百萬元至數億元的數量級範圍內。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.338   7.000   7.477   7.257   7.699   8.477

電影預算的數量級與得分之間的關係

電影的預算與得分有緩慢的線性關係,可見投入的金錢多寡能夠稍微拉高 IMDB 得分。

## 
##  Pearson's product-moment correlation
## 
## data:  movie$imdb_score and movie$budget_in_log10
## t = 6.4702, df = 2732, p-value = 1.156e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.08575754 0.15960210
## sample estimates:
##       cor 
## 0.1228499

我想觀察IMDB分數是否跟其他變數是否有相關性 因此我使用迴歸分析

底下變數是我要分析的自變數:

選擇數值變量的子集進行回歸建模。

## 
## Call:
## lm(formula = imdb_score ~ num_critic_for_reviews + duration + 
##     director_facebook_likes + actor_1_facebook_likes + gross + 
##     cast_total_facebook_likes + facenumber_in_poster + budget + 
##     movie_facebook_likes, data = movie_sub)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.6606 -0.5469  0.0856  0.6668  3.1902 
## 
## Coefficients:
##                             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                5.510e+00  1.000e-01  55.074  < 2e-16 ***
## num_critic_for_reviews     2.815e-03  2.360e-04  11.931  < 2e-16 ***
## duration                   2.940e-03  1.029e-03   2.858 0.004296 ** 
## director_facebook_likes    3.126e-05  7.315e-06   4.273 2.00e-05 ***
## actor_1_facebook_likes     1.096e-05  3.644e-06   3.007 0.002665 ** 
## gross                      1.325e-09  4.062e-10   3.262 0.001120 ** 
## cast_total_facebook_likes -7.425e-06  3.152e-06  -2.356 0.018563 *  
## facenumber_in_poster      -2.935e-02  8.839e-03  -3.321 0.000909 ***
## budget                    -2.651e-09  6.285e-10  -4.218 2.54e-05 ***
## movie_facebook_likes       2.195e-06  1.201e-06   1.827 0.067763 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.024 on 2724 degrees of freedom
## Multiple R-squared:  0.1757, Adjusted R-squared:  0.173 
## F-statistic:  64.5 on 9 and 2724 DF,  p-value: < 2.2e-16

可看出只有movie_facebook_likes這項p-value大於0.05

於是刪除此項變數,再繼續做回歸

## 
## Call:
## lm(formula = imdb_score ~ num_critic_for_reviews + duration + 
##     director_facebook_likes + actor_1_facebook_likes + gross + 
##     cast_total_facebook_likes + facenumber_in_poster + budget, 
##     data = movie_sub)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.5274 -0.5455  0.0779  0.6589  3.2994 
## 
## Coefficients:
##                             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                5.488e+00  9.935e-02  55.235  < 2e-16 ***
## num_critic_for_reviews     3.062e-03  1.936e-04  15.813  < 2e-16 ***
## duration                   2.930e-03  1.029e-03   2.848 0.004438 ** 
## director_facebook_likes    3.190e-05  7.310e-06   4.363 1.33e-05 ***
## actor_1_facebook_likes     1.029e-05  3.627e-06   2.838 0.004573 ** 
## gross                      1.402e-09  4.042e-10   3.469 0.000531 ***
## cast_total_facebook_likes -6.851e-06  3.138e-06  -2.183 0.029094 *  
## facenumber_in_poster      -2.861e-02  8.833e-03  -3.239 0.001213 ** 
## budget                    -2.738e-09  6.270e-10  -4.368 1.30e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.024 on 2725 degrees of freedom
## Multiple R-squared:  0.1747, Adjusted R-squared:  0.1722 
## F-statistic: 72.09 on 8 and 2725 DF,  p-value: < 2.2e-16

結論

我們從分級與票房收入圖發現,越接近成人分級的電影,票房收入越高, 推測影片內容的刺激度是票房的關鍵。

從電影得分分布圖推測大家還是在有好評時比較會留下評論, 但是評論數和票房沒有直接關係,推測可能有較好不叫座的狀況。

在2008年時發現,票房收入突破新高,因為大家都沒工作,休假時間多

批評評論的數量很重要,電影收到的評論越多,得分就越高。

近十年成長較顯著的有冒險、驚悚片與喜劇片;而科幻片在近五年的成長尤其顯著, 或許是隨著拍攝與放映科技進展,科幻體驗增強與逼真,使得觀眾較有意願進廳看戲。