01/08/2022

Objetivo

Neste trabalho, propomos um modelo de regressão logística multinomial ordinal para avaliar a influência de algumas variáveis na nota dada pelo público para 74 filmes. Construímos preditores lineares para cada categoria possível da variável resposta.

Motivação

Só em 2021, a indústria cinematográfica levantou 21,3 bilhões de dólares apenas em bilheteria. Aplicativos de streaming como Netflix investem pesado em identificar as características que fazem o público consumir um filme ou série.

Descrição dos dados

  • 74 linhas e 10 colunas

Explicativas

  • duracao: duração do filme em minutos(contínua).
  • genero: gênero do filme(categórica).
  • estudio: estúdio que produziu o filme(categórica).
  • lucro: lucro ao redor do mundo(contínua).
  • nota_rotten_tomatoes: nota dada por especialistas(categórica ordinal).
  • receita_bruta: receita bruta arrecadada com o filme(contínua).
  • ano: ano de lançamento do filme(discreta).

Descrição dos dados

Resposta

  • nota_publico: nota do público de 1 a 5 estrelas(categórica ordinal).

As notas que obtivemos originalmente estavam numa escala de 1 a 100. Convertemos a partir da seguinte regra:

  • 0-19: 1 estrela
  • 20-39: 2 estrelas
  • 40-59: 3 estrelas
  • 60-89: 4 estrelas
  • 90-100: 5 estrelas

Tabela

Algumas observações do dataset
titulo estudio nota_publico nota_rotten_tomatoes
Across the Universe Independent 4 3
I Love You Phillip Morris Independent 3 4
Not Easily Broken Independent 4 2
Good Luck Chuck Lionsgate 4 1
Midnight in Paris Sony 4 5

Tabela

Algumas observações do dataset
titulo duracao ano lucro receita_bruta
Monte Carlo 90 2011 1.983200 39.66
He’s Just Not That Into You 129 2009 7.153600 178.84
The Twilight Saga: New Moon 130 2009 14.196400 709.82
Gnomeo and Juliet 84 2011 5.387972 193.97
Sex and the City 2 146 2010 2.883500 288.35

Limpeza dos dados

##     titulo            estudio          nota_publico nota_rotten_tomatoes
##  Length:74          Length:74          1: 0         1:14                
##  Class :character   Class :character   2: 1         2:17                
##  Mode  :character   Mode  :character   3:27         3:19                
##                                        4:46         4:20                
##                                        5: 0         5: 4                
##                                                                         
##     genero             duracao          lucro        receita_bruta   
##  Length:74          Min.   : 84.0   Min.   : 0.000   Min.   :  0.03  
##  Class :character   1st Qu.: 98.0   1st Qu.: 1.748   1st Qu.: 32.45  
##  Mode  :character   Median :105.0   Median : 2.619   Median : 73.20  
##                     Mean   :107.3   Mean   : 4.549   Mean   :136.35  
##                     3rd Qu.:113.0   3rd Qu.: 4.567   3rd Qu.:190.19  
##                     Max.   :166.0   Max.   :66.934   Max.   :709.82  
##       ano      
##  Min.   :2007  
##  1st Qu.:2008  
##  Median :2009  
##  Mean   :2009  
##  3rd Qu.:2010  
##  Max.   :2011

Como é possível observar na tabela acima(resultado da função summary() no R), não há valores faltantes no dataset.

Análise Exploratória

  • Outliers:

Como esperado, em alguns filmes as variáveis de investimento irão sobressair. Porém, não há motivos inicialmente para remover essas observações da análise.

Lucro

Receita bruta

Distribuição de notas do público

Uma observação interessante é que nenhum dos filmes receberam notas 1 ou 5 pelo público e a maior parte das notas foram 4.

Distribuição de notas do público por gênero

Matriz de correlação

Receita bruta parece ter alguma correlação com a duração do filme, o que faz sentido, já que grandes produções cinematográficas costumam ter longas durações.

Ajuste do modelo maximal

Não encontramos na literatura nenhum material que sugerisse que as notas do público especializado teria alguma relação com a nota do público. Também não encontramos no caso da variável estúdio. Porém, ainda iremos utilizar variáveis explicativas que acreditamos representar bem a resposta que buscamos analisar.

Ajuste do modelo maximal

## Call:
## polr(formula = nota_publico ~ duracao + lucro + ano + receita_bruta + 
##     genero, data = movies_modelvars, model = T)
## 
## Coefficients:
##                      Value Std. Error   t value
## duracao          -0.004163   0.032544   -0.1279
## lucro            -0.079290   0.035188   -2.2534
## ano              -1.235761   0.001417 -872.2818
## receita_bruta     0.010089   0.004194    2.4057
## generoAnimation   1.577122   0.104126   15.1463
## generoComedy      1.506891   0.524526    2.8729
## generoDrama       5.311480   0.676217    7.8547
## generoFantasy   463.617995        NaN       NaN
## generoRomance     2.898663   0.671385    4.3174
## 
## Intercepts:
##     Value        Std. Error   t value     
## 2|3   -2485.6598       0.0192 -129596.8984
## 3|4   -2480.8142       1.0538   -2354.1282
## 
## Residual Deviance: 87.06772 
## AIC: 109.0677

Ajuste do modelo reduzido

Usamos o método de seleção stepwise para encontrar um modelo reduzido e encontramos as variáveis ano e receita bruta. Por mais que receita bruta faça muito sentido, temos poucos anos no nosso dataset e encontramos na literatura que a variável […] é importante para explicar a reação do público a um filme. Portanto, substituímos a variável ano, estimamos um novo modelo e ele se saiu bem em comparação ao maximal

Ajuste do modelo reduzido - stepwise

## Likelihood ratio tests of ordinal regression models
## 
## Response: nota_publico
##                                            Model Resid. df Resid. Dev   Test
## 1                            ano + receita_bruta        70   92.34060       
## 2 duracao + lucro + ano + receita_bruta + genero        63   87.06772 1 vs 2
##      Df LR stat.   Pr(Chi)
## 1                         
## 2     7  5.27288 0.6267007

Ajuste do modelo reduzido - literatura

## Call:
## polr(formula = nota_publico ~ genero + receita_bruta, data = movies_modelvars, 
##     model = T)
## 
## Coefficients:
## generoAnimation    generoComedy     generoDrama   generoFantasy   generoRomance 
##      0.46104163      2.12992882      4.23413115      8.41417153      2.54775796 
##   receita_bruta 
##      0.01022995 
## 
## Intercepts:
##       2|3       3|4 
## -1.153118  3.061712 
## 
## Residual Deviance: 87.35899 
## AIC: 103.359
## Likelihood ratio tests of ordinal regression models
## 
## Response: nota_publico
##                                            Model Resid. df Resid. Dev   Test
## 1                         genero + receita_bruta        66   87.35899       
## 2 duracao + lucro + ano + receita_bruta + genero        63   87.06772 1 vs 2
##      Df  LR stat.   Pr(Chi)
## 1                          
## 2     3 0.2912648 0.9616629

Bondade do ajuste

Vamos usar o seguinte teste usando a estatística deviance:

  • \(H_0\): o modelo proposto se adequa tão bem quanto o modelo saturado
  • \(H_1\): o modelo proposto não se adequa tão bem quanto o modelo saturado

(BOTAR A FÓRMULA DA DEVIANCE AQUI)

## [1] 0.04039087

Análise dos resíduos

AAAAAAAAAAAA

Fontes