Neste trabalho, propomos um modelo de regressão logística multinomial ordinal para avaliar a influência de algumas variáveis na nota dada pelo público para 74 filmes. Construímos preditores lineares para cada categoria possível da variável resposta.
01/08/2022
Neste trabalho, propomos um modelo de regressão logística multinomial ordinal para avaliar a influência de algumas variáveis na nota dada pelo público para 74 filmes. Construímos preditores lineares para cada categoria possível da variável resposta.
Só em 2021, a indústria cinematográfica levantou 21,3 bilhões de dólares apenas em bilheteria. Aplicativos de streaming como Netflix investem pesado em identificar as características que fazem o público consumir um filme ou série.
Explicativas
Resposta
As notas que obtivemos originalmente estavam numa escala de 1 a 100. Convertemos a partir da seguinte regra:
titulo | estudio | nota_publico | nota_rotten_tomatoes |
---|---|---|---|
Across the Universe | Independent | 4 | 3 |
I Love You Phillip Morris | Independent | 3 | 4 |
Not Easily Broken | Independent | 4 | 2 |
Good Luck Chuck | Lionsgate | 4 | 1 |
Midnight in Paris | Sony | 4 | 5 |
titulo | duracao | ano | lucro | receita_bruta |
---|---|---|---|---|
Monte Carlo | 90 | 2011 | 1.983200 | 39.66 |
He’s Just Not That Into You | 129 | 2009 | 7.153600 | 178.84 |
The Twilight Saga: New Moon | 130 | 2009 | 14.196400 | 709.82 |
Gnomeo and Juliet | 84 | 2011 | 5.387972 | 193.97 |
Sex and the City 2 | 146 | 2010 | 2.883500 | 288.35 |
## titulo estudio nota_publico nota_rotten_tomatoes ## Length:74 Length:74 1: 0 1:14 ## Class :character Class :character 2: 1 2:17 ## Mode :character Mode :character 3:27 3:19 ## 4:46 4:20 ## 5: 0 5: 4 ## ## genero duracao lucro receita_bruta ## Length:74 Min. : 84.0 Min. : 0.000 Min. : 0.03 ## Class :character 1st Qu.: 98.0 1st Qu.: 1.748 1st Qu.: 32.45 ## Mode :character Median :105.0 Median : 2.619 Median : 73.20 ## Mean :107.3 Mean : 4.549 Mean :136.35 ## 3rd Qu.:113.0 3rd Qu.: 4.567 3rd Qu.:190.19 ## Max. :166.0 Max. :66.934 Max. :709.82 ## ano ## Min. :2007 ## 1st Qu.:2008 ## Median :2009 ## Mean :2009 ## 3rd Qu.:2010 ## Max. :2011
Como é possível observar na tabela acima(resultado da função summary() no R), não há valores faltantes no dataset.
Como esperado, em alguns filmes as variáveis de investimento irão sobressair. Porém, não há motivos inicialmente para remover essas observações da análise.
Uma observação interessante é que nenhum dos filmes receberam notas 1 ou 5 pelo público e a maior parte das notas foram 4.
Receita bruta parece ter alguma correlação com a duração do filme, o que faz sentido, já que grandes produções cinematográficas costumam ter longas durações.
Não encontramos na literatura nenhum material que sugerisse que as notas do público especializado teria alguma relação com a nota do público. Também não encontramos no caso da variável estúdio. Porém, ainda iremos utilizar variáveis explicativas que acreditamos representar bem a resposta que buscamos analisar.
## Call: ## polr(formula = nota_publico ~ duracao + lucro + ano + receita_bruta + ## genero, data = movies_modelvars, model = T) ## ## Coefficients: ## Value Std. Error t value ## duracao -0.004163 0.032544 -0.1279 ## lucro -0.079290 0.035188 -2.2534 ## ano -1.235761 0.001417 -872.2818 ## receita_bruta 0.010089 0.004194 2.4057 ## generoAnimation 1.577122 0.104126 15.1463 ## generoComedy 1.506891 0.524526 2.8729 ## generoDrama 5.311480 0.676217 7.8547 ## generoFantasy 463.617995 NaN NaN ## generoRomance 2.898663 0.671385 4.3174 ## ## Intercepts: ## Value Std. Error t value ## 2|3 -2485.6598 0.0192 -129596.8984 ## 3|4 -2480.8142 1.0538 -2354.1282 ## ## Residual Deviance: 87.06772 ## AIC: 109.0677
Usamos o método de seleção stepwise para encontrar um modelo reduzido e encontramos as variáveis ano e receita bruta. Por mais que receita bruta faça muito sentido, temos poucos anos no nosso dataset e encontramos na literatura que a variável […] é importante para explicar a reação do público a um filme. Portanto, substituímos a variável ano, estimamos um novo modelo e ele se saiu bem em comparação ao maximal
## Likelihood ratio tests of ordinal regression models ## ## Response: nota_publico ## Model Resid. df Resid. Dev Test ## 1 ano + receita_bruta 70 92.34060 ## 2 duracao + lucro + ano + receita_bruta + genero 63 87.06772 1 vs 2 ## Df LR stat. Pr(Chi) ## 1 ## 2 7 5.27288 0.6267007
## Call: ## polr(formula = nota_publico ~ genero + receita_bruta, data = movies_modelvars, ## model = T) ## ## Coefficients: ## generoAnimation generoComedy generoDrama generoFantasy generoRomance ## 0.46104163 2.12992882 4.23413115 8.41417153 2.54775796 ## receita_bruta ## 0.01022995 ## ## Intercepts: ## 2|3 3|4 ## -1.153118 3.061712 ## ## Residual Deviance: 87.35899 ## AIC: 103.359
## Likelihood ratio tests of ordinal regression models ## ## Response: nota_publico ## Model Resid. df Resid. Dev Test ## 1 genero + receita_bruta 66 87.35899 ## 2 duracao + lucro + ano + receita_bruta + genero 63 87.06772 1 vs 2 ## Df LR stat. Pr(Chi) ## 1 ## 2 3 0.2912648 0.9616629
Vamos usar o seguinte teste usando a estatística deviance:
(BOTAR A FÓRMULA DA DEVIANCE AQUI)
## [1] 0.04039087
AAAAAAAAAAAA