2 дневник

Мы нашли датасет, который содержит информацию об Оскаре: номинации, победители, какаеи фильмы выигравали и в какой категории. (https://www.kaggle.com/theacademy/academy-awards/data).

Для дальнейшего анализа соединим новый датасет с movie_info.

Сначала нужно побольше узнать о новых переменных, поэтому начнем с графиков.

Какая категория имеет больше всего номинаций в нашем датасете?

w2 <- netflix %>% dplyr::group_by(Award) %>% dplyr::summarise(n = n()) %>%  dplyr::arrange(-n) %>% glimpse()%>% na.omit()

## Observations: 16
## Variables: 2
## $ Award <chr> NA, "Actor in a Supporting Role", "Actress in a Supporti...
## $ n     <int> 1618, 112, 88, 79, 61, 40, 15, 4, 4, 2, 2, 1, 1, 1, 1, 1

datatable(w2)

Согласно таблице категория Actor in a Supporting Role имеет 112 номинаций, в то время как такие категории как Directing, Outstanding Picture, Special Achievement Award, Writing, Writing (Original Story) всего по 1 номинации каждая. Всего категорий 15.

W1= hchart(w2, "treemap", hcaes(x = Award, value = n, color = n))%>%
  hc_add_theme(hc_theme_google()) %>% hc_title(text = "Категории")
W1

Также мы можем сделать визуализацию нашей таблицы. Чем темнее цвет, тем больше номинаций у категории.

Какие актеры были номинированы чаще других?

nom <- netflix %>% dplyr::group_by(Name) %>% dplyr::summarise(n = n()) %>% dplyr::arrange(desc(n))%>% na.omit()
datatable(nom)

Мы видим, что больше всего номинаций у Denzel Washington, Paul Newman, Tom Hanks, у них их по 5. Также мы можем узнать, что в нашем датасете всего 301 актера/актрисы, которые были номинированы.

W2 = hchart(nom, "treemap", hcaes(x = Name,value = n, color = n))%>%
  hc_add_theme(hc_theme_google()) %>% hc_title(text = "Номинации")
W2

Посторим график с актерами.

Кто победил?

win <- netflix %>% dplyr::group_by(Name) %>%  dplyr::filter(Winner== 1)%>% dplyr::summarise(n = n()) %>% dplyr::arrange(desc(n))%>% na.omit()
datatable(win)

Согласно таблице больше всего Оскаров Hilary Swank (3 Оскара), а всего победителей 98.

W3 = hchart(win, "treemap", hcaes(x = Name,value = n, color = n))%>%
  hc_add_theme(hc_theme_google()) %>% hc_title(text = "Победители")
W3

Построим визуализацию.

За какие фильмы Hilary Swank получила Оскары?

Win =  netflix  %>%  dplyr::filter(Winner== 1)%>% filter(Name=="Hilary Swank", )
ggplot(Win,aes( x = Year,y = title,color=Year))+geom_count()+ggtitle("Hilary Swank")+theme_bw()

Мы видим, что за фильм Boys Don’t Cry Hilary Swank получила 2 Оскара в 1999 году, а за фильм Million Dollar Baby 1 Оскар в 2004 году.

Анализ данных

netflix$Award1 <-ifelse(netflix$Award== "", 0, 1)
netflix$Award1[is.na(netflix$Award1)] <- 0

Кодируем переменную Award так, чтобы если в изначальной переменной были слова, то новая переменная имеет значение 1, а все NA кодируем как 0.

netflix1 = netflix %>% dplyr::select(title, movie_id, popularity, Award1, budget)
netflix1$popularity1 = as.numeric(netflix1$popularity)
netflix1$budget1 = as.numeric(netflix1$budget)
netflix1$Award2 = as.numeric(netflix1$Award1)

Выбираем нужные нам переменные и кодируем их.

m1 <- lm(popularity ~ Award1 + budget, data = netflix1)
summary(m1)

## 
## Call:
## lm(formula = popularity ~ Award1 + budget, data = netflix1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -49.035  -9.345  -4.787   4.483 213.595 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 9.572e+00  5.879e-01   16.28   <2e-16 ***
## Award1      1.193e+01  1.027e+00   11.61   <2e-16 ***
## budget      2.634e-07  1.316e-08   20.02   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 18.57 on 2027 degrees of freedom
## Multiple R-squared:  0.1991, Adjusted R-squared:  0.1983 
## F-statistic: 251.9 on 2 and 2027 DF,  p-value: < 2.2e-16

Анализирую коэффициенты, мы можем сказать что обе переменные( номинации и бюджет) имеют положительный эффект на популярность фильма.

Таким образом, наше финальное уравнение выглядит так:

Y = 9.572e+00 + 1.193e+01(Award1) + 2.634e-07(budget)

Согласно Adjusted R-squared мы можем предсказать примерно 20% нашего сета.

ggplot(data = netflix1, aes(x = Award1+budget, y = popularity)) + 
  geom_point() + 
  geom_smooth(method = "lm", formula = y~x)

Построим график, на котором видно, что с повышением популярности, растет значение бюджета и номинации.