Queremos propor um modelo de regressão para explicar o comportamento da bilheteria de filmes em um banco de dados do site Kaggle.
Com o intuito de criar esse modelo preditivo, um modelo básico e que utiliza apenas as variáveis contínuas dentre todas as disponibilizadas é mostrado abaixo:
library(readr)
library(tidyverse)
desafio <- read_csv("~/premio_final.csv", col_types = cols(release_date = col_date(format = "%m/%d/%y")))
fit <- desafio %>% lm(formula = revenue ~ popularity + runtime + budget)
summary(fit)
##
## Call:
## lm(formula = revenue ~ popularity + runtime + budget, data = .)
##
## Residuals:
## Min 1Q Median 3Q Max
## -429834266 -25541829 -1408127 11727413 750680352
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.209e+07 8.353e+06 -2.645 0.00823 **
## popularity 2.220e+06 1.430e+05 15.523 < 2e-16 ***
## runtime 1.170e+05 7.746e+04 1.510 0.13120
## budget 2.492e+00 4.912e-02 50.721 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 82570000 on 2395 degrees of freedom
## (1 observation deleted due to missingness)
## Multiple R-squared: 0.6243, Adjusted R-squared: 0.6238
## F-statistic: 1327 on 3 and 2395 DF, p-value: < 2.2e-16
Em modelos de regressão desse tipo, em geral, retiramos uma variável quando o p-valor excede 0,2.
No nosso caso, em particular, não retiraremos nenhuma variável do nosso modelo, pois todos os p-valores estão abaixo da cota.
Sendo assim, nosso modelo final pode ser descrito por:
\[ Revenue = -2,209\cdot 10^{7} + 2,220 \cdot 10^6 \cdot popularity + 1,170 \cdot 10^5 \cdot runtime + 2,492 \cdot budget \]
Que podemos interpretar da seguinte forma:
Desta forma, o modelo de regressão aqui criado para elucidar o comportamento da bilheteria de filmes é razoável, explicando, cerca de, 62,38% da variabilidade da receita.