Мы нашли датасет, который содержит информацию об Оскаре: номинации, победители, какаеи фильмы выигравали и в какой категории. (https://www.kaggle.com/theacademy/academy-awards/data).
Для дальнейшего анализа соединим новый датасет с movie_info.
Сначала нужно побольше узнать о новых переменных, поэтому начнем с графиков.
w2 <- netflix %>% dplyr::group_by(Award) %>% dplyr::summarise(n = n()) %>% dplyr::arrange(-n) %>% glimpse()%>% na.omit()
## Observations: 16
## Variables: 2
## $ Award <chr> NA, "Actor in a Supporting Role", "Actress in a Supporti...
## $ n <int> 1618, 112, 88, 79, 61, 40, 15, 4, 4, 2, 2, 1, 1, 1, 1, 1
datatable(w2)
Согласно таблице категория Actor in a Supporting Role имеет 112 номинаций, в то время как такие категории как Directing, Outstanding Picture, Special Achievement Award, Writing, Writing (Original Story) всего по 1 номинации каждая. Всего категорий 15.
W1= hchart(w2, "treemap", hcaes(x = Award, value = n, color = n))%>%
hc_add_theme(hc_theme_google()) %>% hc_title(text = "Категории")
W1
Также мы можем сделать визуализацию нашей таблицы. Чем темнее цвет, тем больше номинаций у категории.
nom <- netflix %>% dplyr::group_by(Name) %>% dplyr::summarise(n = n()) %>% dplyr::arrange(desc(n))%>% na.omit()
datatable(nom)
Мы видим, что больше всего номинаций у Denzel Washington, Paul Newman, Tom Hanks, у них их по 5. Также мы можем узнать, что в нашем датасете всего 301 актера/актрисы, которые были номинированы.
W2 = hchart(nom, "treemap", hcaes(x = Name,value = n, color = n))%>%
hc_add_theme(hc_theme_google()) %>% hc_title(text = "Номинации")
W2
Посторим график с актерами.
win <- netflix %>% dplyr::group_by(Name) %>% dplyr::filter(Winner== 1)%>% dplyr::summarise(n = n()) %>% dplyr::arrange(desc(n))%>% na.omit()
datatable(win)
Согласно таблице больше всего Оскаров Hilary Swank (3 Оскара), а всего победителей 98.
W3 = hchart(win, "treemap", hcaes(x = Name,value = n, color = n))%>%
hc_add_theme(hc_theme_google()) %>% hc_title(text = "Победители")
W3
Построим визуализацию.
Win = netflix %>% dplyr::filter(Winner== 1)%>% filter(Name=="Hilary Swank", )
ggplot(Win,aes( x = Year,y = title,color=Year))+geom_count()+ggtitle("Hilary Swank")+theme_bw()
Мы видим, что за фильм Boys Don’t Cry Hilary Swank получила 2 Оскара в 1999 году, а за фильм Million Dollar Baby 1 Оскар в 2004 году.
netflix$Award1 <-ifelse(netflix$Award== "", 0, 1)
netflix$Award1[is.na(netflix$Award1)] <- 0
Кодируем переменную Award так, чтобы если в изначальной переменной были слова, то новая переменная имеет значение 1, а все NA кодируем как 0.
netflix1 = netflix %>% dplyr::select(title, movie_id, popularity, Award1, budget)
netflix1$popularity1 = as.numeric(netflix1$popularity)
netflix1$budget1 = as.numeric(netflix1$budget)
netflix1$Award2 = as.numeric(netflix1$Award1)
Выбираем нужные нам переменные и кодируем их.
m1 <- lm(popularity ~ Award1 + budget, data = netflix1)
summary(m1)
##
## Call:
## lm(formula = popularity ~ Award1 + budget, data = netflix1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -49.035 -9.345 -4.787 4.483 213.595
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.572e+00 5.879e-01 16.28 <2e-16 ***
## Award1 1.193e+01 1.027e+00 11.61 <2e-16 ***
## budget 2.634e-07 1.316e-08 20.02 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.57 on 2027 degrees of freedom
## Multiple R-squared: 0.1991, Adjusted R-squared: 0.1983
## F-statistic: 251.9 on 2 and 2027 DF, p-value: < 2.2e-16
Анализирую коэффициенты, мы можем сказать что обе переменные( номинации и бюджет) имеют положительный эффект на популярность фильма.
Таким образом, наше финальное уравнение выглядит так:
Y = 9.572e+00 + 1.193e+01(Award1) + 2.634e-07(budget)
Согласно Adjusted R-squared мы можем предсказать примерно 20% нашего сета.
ggplot(data = netflix1, aes(x = Award1+budget, y = popularity)) +
geom_point() +
geom_smooth(method = "lm", formula = y~x)
Построим график, на котором видно, что с повышением популярности, растет значение бюджета и номинации.