## color director_name num_critic_for_reviews
## Length:4858 Length:4858 Min. : 1
## Class :character Class :character 1st Qu.: 50
## Mode :character Mode :character Median :111
## Mean :141
## 3rd Qu.:196
## Max. :813
## NA's :43
## duration director_facebook_likes actor_3_facebook_likes
## Min. : 7.0 Min. : 0.0 Min. : 0.0
## 1st Qu.: 93.0 1st Qu.: 7.0 1st Qu.: 146.8
## Median :103.0 Median : 50.0 Median : 384.0
## Mean :107.1 Mean : 706.7 Mean : 660.8
## 3rd Qu.:118.0 3rd Qu.: 198.0 3rd Qu.: 642.0
## Max. :334.0 Max. :23000.0 Max. :23000.0
## NA's :13 NA's :97 NA's :18
## actor_2_name actor_1_facebook_likes gross
## Length:4858 Min. : 0 Min. : 703
## Class :character 1st Qu.: 634 1st Qu.: 6002756
## Mode :character Median : 1000 Median : 26539321
## Mean : 6713 Mean : 49405351
## 3rd Qu.: 11000 3rd Qu.: 63695760
## Max. :640000 Max. :760505847
## NA's :6 NA's :821
## genres actor_1_name movie_title
## Length:4858 Length:4858 Length:4858
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
##
## num_voted_users cast_total_facebook_likes actor_3_name
## Min. : 5 Min. : 0 Length:4858
## 1st Qu.: 9040 1st Qu.: 1495 Class :character
## Median : 35540 Median : 3173 Mode :character
## Mean : 85049 Mean : 9933
## 3rd Qu.: 98677 3rd Qu.: 14120
## Max. :1689764 Max. :656730
##
## facenumber_in_poster plot_keywords movie_imdb_link
## Min. : 0.000 Length:4858 Length:4858
## 1st Qu.: 0.000 Class :character Class :character
## Median : 1.000 Mode :character Mode :character
## Mean : 1.377
## 3rd Qu.: 2.000
## Max. :43.000
## NA's :12
## num_user_for_reviews language country
## Min. : 1.0 Length:4858 Length:4858
## 1st Qu.: 68.0 Class :character Class :character
## Median : 160.0 Mode :character Mode :character
## Mean : 275.4
## 3rd Qu.: 332.0
## Max. :4667.0
## NA's :16
## content_rating budget title_year
## Length:4858 Min. :2.180e+02 Min. :1916
## Class :character 1st Qu.:6.000e+06 1st Qu.:1999
## Mode :character Median :2.000e+07 Median :2005
## Mean :3.593e+07 Mean :2002
## 3rd Qu.:4.500e+07 3rd Qu.:2011
## Max. :2.400e+09 Max. :2016
## NA's :458 NA's :98
## actor_2_facebook_likes imdb_score aspect_ratio
## Min. : 0.0 Min. :1.600 Min. : 1.180
## 1st Qu.: 298.8 1st Qu.:5.800 1st Qu.: 1.850
## Median : 611.0 Median :6.600 Median : 2.350
## Mean : 1692.0 Mean :6.426 Mean : 2.211
## 3rd Qu.: 925.0 3rd Qu.:7.200 3rd Qu.: 2.350
## Max. :137000.0 Max. :9.500 Max. :16.000
## NA's :10 NA's :305
## movie_facebook_likes
## Min. : 0.0
## 1st Qu.: 0.0
## Median : 168.5
## Mean : 7599.6
## 3rd Qu.: 3000.0
## Max. :349000.0
##
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 1 50 111 141 196 813 43
在這5043部電影中,最低評論數為1,最高評論數為813,大多數電影收到的評論不到200條。
數據的大部分電影都是在2000年之後製作的。
美國製作的電影數量最多。
由於IMDB是1990年後開始的,而且主要都是美國電影 因此我將資料先資料預處理,主要分析內容就縮小為“2000年後美國電影”
由圖可看出PG-13和R,這種類的電影分級是大眾最常看的
由圖可看出在2008年金融風暴,電影票房出現近二十年來最高。 這值得我們好好去分析……
在這十六年之間,冒險、喜劇、動作,是IMDb收錄資料中營收最高的三種類型; 而新聞、短片、紀錄則是營收最低的三種類型。 其中,我們可以從顏色色塊的高矮變化見到。
由圖可看出影評分數與票房並沒有出現相關性(R^2=0.21)
我們可以看到電影得分的分布大部分集中在 5 ~ 7.5 分左右。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.600 5.600 6.400 6.248 7.000 9.100
電影的預算以千萬元等級居多,大部分的預算落在數百萬元至數億元的數量級範圍內。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.338 7.000 7.477 7.257 7.699 8.477
電影的預算與得分有緩慢的線性關係,可見投入的金錢多寡能夠稍微拉高 IMDB 得分。
##
## Pearson's product-moment correlation
##
## data: movie$imdb_score and movie$budget_in_log10
## t = 6.4702, df = 2732, p-value = 1.156e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.08575754 0.15960210
## sample estimates:
## cor
## 0.1228499
我想觀察IMDB分數是否跟其他變數是否有相關性 因此我使用迴歸分析
底下變數是我要分析的自變數:
num_critic_for_reviews
duration
director_facebook_likes
actor_1_facebook_likes
gross
cast_total_facebook_likes
facenumber_in_poster
budget
movie_facebook_likes
選擇數值變量的子集進行回歸建模。
##
## Call:
## lm(formula = imdb_score ~ num_critic_for_reviews + duration +
## director_facebook_likes + actor_1_facebook_likes + gross +
## cast_total_facebook_likes + facenumber_in_poster + budget +
## movie_facebook_likes, data = movie_sub)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.6606 -0.5469 0.0856 0.6668 3.1902
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.510e+00 1.000e-01 55.074 < 2e-16 ***
## num_critic_for_reviews 2.815e-03 2.360e-04 11.931 < 2e-16 ***
## duration 2.940e-03 1.029e-03 2.858 0.004296 **
## director_facebook_likes 3.126e-05 7.315e-06 4.273 2.00e-05 ***
## actor_1_facebook_likes 1.096e-05 3.644e-06 3.007 0.002665 **
## gross 1.325e-09 4.062e-10 3.262 0.001120 **
## cast_total_facebook_likes -7.425e-06 3.152e-06 -2.356 0.018563 *
## facenumber_in_poster -2.935e-02 8.839e-03 -3.321 0.000909 ***
## budget -2.651e-09 6.285e-10 -4.218 2.54e-05 ***
## movie_facebook_likes 2.195e-06 1.201e-06 1.827 0.067763 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.024 on 2724 degrees of freedom
## Multiple R-squared: 0.1757, Adjusted R-squared: 0.173
## F-statistic: 64.5 on 9 and 2724 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = imdb_score ~ num_critic_for_reviews + duration +
## director_facebook_likes + actor_1_facebook_likes + gross +
## cast_total_facebook_likes + facenumber_in_poster + budget,
## data = movie_sub)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.5274 -0.5455 0.0779 0.6589 3.2994
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.488e+00 9.935e-02 55.235 < 2e-16 ***
## num_critic_for_reviews 3.062e-03 1.936e-04 15.813 < 2e-16 ***
## duration 2.930e-03 1.029e-03 2.848 0.004438 **
## director_facebook_likes 3.190e-05 7.310e-06 4.363 1.33e-05 ***
## actor_1_facebook_likes 1.029e-05 3.627e-06 2.838 0.004573 **
## gross 1.402e-09 4.042e-10 3.469 0.000531 ***
## cast_total_facebook_likes -6.851e-06 3.138e-06 -2.183 0.029094 *
## facenumber_in_poster -2.861e-02 8.833e-03 -3.239 0.001213 **
## budget -2.738e-09 6.270e-10 -4.368 1.30e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.024 on 2725 degrees of freedom
## Multiple R-squared: 0.1747, Adjusted R-squared: 0.1722
## F-statistic: 72.09 on 8 and 2725 DF, p-value: < 2.2e-16
我們從分級與票房收入圖發現,越接近成人分級的電影,票房收入越高, 推測影片內容的刺激度是票房的關鍵。
從電影得分分布圖推測大家還是在有好評時比較會留下評論, 但是評論數和票房沒有直接關係,推測可能有較好不叫座的狀況。
在2008年時發現,票房收入突破新高,因為大家都沒工作,休假時間多
批評評論的數量很重要,電影收到的評論越多,得分就越高。
近十年成長較顯著的有冒險、驚悚片與喜劇片;而科幻片在近五年的成長尤其顯著, 或許是隨著拍攝與放映科技進展,科幻體驗增強與逼真,使得觀眾較有意願進廳看戲。