Introdução

Queremos propor um modelo de regressão para explicar o comportamento da bilheteria de filmes em um banco de dados do site Kaggle.

Desenvolvimento

Com o intuito de criar esse modelo preditivo, um modelo básico e que utiliza apenas as variáveis contínuas dentre todas as disponibilizadas é mostrado abaixo:

library(readr)
library(tidyverse)
desafio <- read_csv("~/premio_final.csv", col_types = cols(release_date = col_date(format = "%m/%d/%y")))

fit <- desafio %>% lm(formula = revenue ~ popularity + runtime + budget)
summary(fit)
## 
## Call:
## lm(formula = revenue ~ popularity + runtime + budget, data = .)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -429834266  -25541829   -1408127   11727413  750680352 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -2.209e+07  8.353e+06  -2.645  0.00823 ** 
## popularity   2.220e+06  1.430e+05  15.523  < 2e-16 ***
## runtime      1.170e+05  7.746e+04   1.510  0.13120    
## budget       2.492e+00  4.912e-02  50.721  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 82570000 on 2395 degrees of freedom
##   (1 observation deleted due to missingness)
## Multiple R-squared:  0.6243, Adjusted R-squared:  0.6238 
## F-statistic:  1327 on 3 and 2395 DF,  p-value: < 2.2e-16

Em modelos de regressão desse tipo, em geral, retiramos uma variável quando o p-valor excede 0,2.

No nosso caso, em particular, não retiraremos nenhuma variável do nosso modelo, pois todos os p-valores estão abaixo da cota.

Sendo assim, nosso modelo final pode ser descrito por:

\[ Revenue = -2,209\cdot 10^{7} + 2,220 \cdot 10^6 \cdot popularity + 1,170 \cdot 10^5 \cdot runtime + 2,492 \cdot budget \]

Que podemos interpretar da seguinte forma:

  1. Cada acréscimo de uma unidade em popularidade (“popularity”) impacta em um aumento esperado da receita de 2.220.000 dólares;
  2. Cada acréscimo de uma unidade no tempo de execução (“runtime”) impacta em um aumento esperado da receita de 117.000 doláres;
  3. Cada dólar investido no orçamento (“budget”) impacta em um aumento esperado da receita de 2,492 dólares.

Conclusão

Desta forma, o modelo de regressão aqui criado para elucidar o comportamento da bilheteria de filmes é razoável, explicando, cerca de, 62,38% da variabilidade da receita.