movies <- read.csv("C:/Users/igorb/Downloads/Trabalho do adelmo/HollywoodMovies.csv")
movies$Genre <- as.factor(movies$Genre)
movies$AudienceScore <- cut(movies$AudienceScore, breaks = c(-Inf, 25, 50, 75, 100), labels = c("péssimo", "ruim", "bom", "ótimo"), right = TRUE)
movies$RottenTomatoes <- cut(movies$RottenTomatoes,
breaks = c(-Inf, 25, 50, 75, 100),
labels = c("péssimo", "ruim", "bom", "ótimo"),
right = TRUE)
top_studios <- names(sort(table(movies$LeadStudio), decreasing = TRUE))[1:15]
top_studios <- setdiff(top_studios, "Independent")
movies <- movies %>% filter(LeadStudio %in% top_studios)
movies$LeadStudio <- as.factor(movies$LeadStudio)Análise das relações presentes nos Filmes de Hollywood
Quais são os dados?
Os dados utilizados neste trabalho provêm de um conjunto de dados sobre filmes de Hollywood (970 filmes), contendo informações sobre os filmes de 2007 a 2013. A seguir, uma descrição detalhada dos principais campos presentes no conjunto de dados:
Title: O título do filme;
Genre: O gênero do filme, que pode incluir categorias como ação, comédia, drama, entre outros;
LeadStudio: O estúdio principal responsável pela produção do filme;
AudienceScore: A pontuação do filme dada pelo público, coletada através Rotten Tomatoes;
RottenTomatoes: A pontuação do filme dada pelos críticos, coletada através Rotten Tomatoes;
Budget: O orçamento estimado para a produção do filme, expresso em milhões de dólares;
WorldGross: A receita bruta mundial gerada pelo filme, também expressa em milhões de dólares;
Year: O ano de lançamento do filme.
A análise visa responder algumas perguntas de mercado, tais como:
Relação entre Gênero e Bilheteria: Analisar se o gênero de um filme tem um impacto significativo na sua receita global;
Relação entre Gênero e Orçamento: Investigar se diferentes gêneros de filmes tendem a ter orçamentos significativamente diferentes;
Relação entre Estúdio e Bilheteria: Examinar se filmes produzidos por diferentes estúdios mostram variações significativas em termos de receita global;
Relação entre Nota da Audiência e Bilheteria: Explorar se há uma correlação significativa entre a pontuação dada pelo público e a bilheteria global.
Estas análises podem ajudar a entender os fatores que influenciam o sucesso comercial de filmes e pode fornecer insights valiosos para produtores, estúdios e investidores na indústria cinematográfica.
Transformações e ajustes
Gênero foi transformada em fator (com 15 níveis);
Nota da audiência e dos críticos foi categorizada em:
Péssimo (0 a 25);
Ruim (26 a 50);
Bom (51 a 75);
Ótimo (76 a 100).
Como haviam 70 estúdios diferentes, foram selecionados os 14 maiores e a variável foi transformada em fator. Essa transformação reduziu as observações totais para 712.
Variáveis Ajustadas - I
kable(table(movies$LeadStudio), caption = "Distribuição dos Estúdios") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed"), full_width = F) %>%
scroll_box(width = "100%", height = "600px")| Var1 | Freq |
|---|---|
| Buena Vista | 20 |
| CBS | 12 |
| Disney | 39 |
| Focus | 17 |
| Fox | 91 |
| Fox Searchlight | 13 |
| Lionsgate | 40 |
| Paramount | 81 |
| Relativity Media | 30 |
| Sony | 98 |
| Summit | 33 |
| Universal | 85 |
| Warner Bros | 114 |
| Weinstein | 39 |
kable(table(movies$Genre), caption = "Distribuição do Gênero") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed"), full_width = F) %>%
scroll_box(width = "100%", height = "600px")| Var1 | Freq |
|---|---|
| 225 | |
| Action | 133 |
| Adventure | 25 |
| Animation | 39 |
| Biography | 9 |
| Comedy | 123 |
| Crime | 10 |
| Documentary | 4 |
| Drama | 68 |
| Fantasy | 4 |
| Horror | 31 |
| Musical | 3 |
| Mystery | 5 |
| Romance | 12 |
| Thriller | 21 |
Variáveis Ajustadas - II
kable(table(movies$AudienceScore), caption = "Distribuição das Notas da Audiência") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed"), full_width = F) %>%
scroll_box(width = "100%", height = "600px")| Var1 | Freq |
|---|---|
| péssimo | 5 |
| ruim | 178 |
| bom | 337 |
| ótimo | 164 |
kable(table(movies$RottenTomatoes), caption = "Distribuição das Notas dos Críticos") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed"), full_width = F) %>%
scroll_box(width = "100%", height = "600px")| Var1 | Freq |
|---|---|
| péssimo | 136 |
| ruim | 188 |
| bom | 188 |
| ótimo | 175 |
Outras informações adicionais
O orçamento médio foi de $62 milhões de dólares:
Com o máximo sendo $300mi no filme: Piratas do Caribe;
Dos filmes “conhecidos” o menor foi: Atividade Paranormal 2 com $3mi;
A bilheteria global média foi de $191 milhões de dólares:
Com o máximo sendo $2.7bi no filme: Avatar;
Dos filmes “conhecidos” o menor foi: Her com $30mi;
Distribuição da Bilheteria Global por Gênero
ggplot(movies, aes(x = Genre, y = WorldGross)) +
geom_boxplot() +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
labs(x = "Gênero", y = "Bilheteria Global (em milhões)")Warning: Removed 24 rows containing non-finite values (`stat_boxplot()`).
Distribuição da Bilheteria Global por Estúdio
ggplot(movies, aes(x = LeadStudio, y = WorldGross)) +
geom_boxplot() +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
labs(title = "Distribuição da Bilheteria Global por Estúdio", x = "Estúdio", y = "Bilheteria Global (em milhões)")Warning: Removed 24 rows containing non-finite values (`stat_boxplot()`).
Distribuição da Bilheteria Global por Nota da Audiência
ggplot(movies, aes(x = AudienceScore, y = WorldGross)) +
geom_boxplot() +
labs(title = "Distribuição da Bilheteria Global por Nota da Audiência", x = "Nota da Audiência", y = "Bilheteria Global (em milhões)")Warning: Removed 24 rows containing non-finite values (`stat_boxplot()`).
Distribuição da Bilheteria Global por Nota dos Críticos
ggplot(movies, aes(x = RottenTomatoes, y = WorldGross)) +
geom_boxplot() +
labs(title = "Distribuição da Bilheteria Global por Nota dos Críticos", x = "Nota dos Críticos", y = "Bilheteria Global (em milhões)")Warning: Removed 24 rows containing non-finite values (`stat_boxplot()`).
Distribuição do Orçamento por Gênero
ggplot(movies, aes(x = Genre, y = Budget)) +
geom_boxplot() +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
labs(title = "Distribuição do Orçamento por Gênero", x = "Gênero", y = "Orçamento (em milhões)")Warning: Removed 34 rows containing non-finite values (`stat_boxplot()`).
Histograma da Bilheteria Global
ggplot(movies, aes(x = WorldGross)) +
geom_histogram(binwidth = 100, fill = "blue", color = "black", alpha = 0.7) +
labs(title = "Histograma da Bilheteria Global", x = "Bilheteria Global (em milhões)", y = "Frequência")Warning: Removed 24 rows containing non-finite values (`stat_bin()`).
Histograma do Orçamento
ggplot(movies, aes(x = Budget)) +
geom_histogram(binwidth = 20, fill = "green", color = "black", alpha = 0.7) +
labs(title = "Histograma do orçamento", x = "orçamento (em milhões)", y = "Frequência")Warning: Removed 34 rows containing non-finite values (`stat_bin()`).
Kruskal-Wallis
O teste de Kruskal-Wallis é um teste não paramétrico utilizado para determinar se existem diferenças estatisticamente significativas entre as medianas de três ou mais grupos independentes. Ele é uma extensão do teste de Wilcoxon-Mann-Whitney para mais de dois grupos.
Funcionamento do Teste
Ordenação dos Dados: Todos os valores das diferentes amostras são combinados e ordenados em uma sequência crescente.
Classificação: Cada valor é substituído por sua classificação (rank) nessa ordenação. Se houver valores idênticos, cada um deles recebe a média das classificações que ocupariam.
Cálculo das Classificações: As classificações são somadas para cada grupo.
Cálculo da Estatística de Teste: A estatística do teste H é calculada com base nas classificações e no tamanho das amostras de cada grupo. A fórmula é
\[H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i}-3(N+1)\]
Onde:
N é o número total de observações. k é o número de grupos.
R é a soma das classificações. n é o tamanho do grupo.
Distribuição Qui-Quadrado: A estatística H segue aproximadamente uma distribuição qui-quadrado com k−1 graus de liberdade, onde k é o número de grupos.
Hipóteses do Teste
Hipótese Nula (H0): As medianas dos diferentes grupos são iguais. Não há diferença significativa entre os grupos.
Hipótese Alternativa (H1): Pelo menos uma das medianas dos grupos é diferente. Há uma diferença significativa entre os grupos.
Pergunta 1: O gênero do filme está relacionado à bilheteria global?
kruskal.test(WorldGross ~ Genre, data = movies)
Kruskal-Wallis rank sum test
data: WorldGross by Genre
Kruskal-Wallis chi-squared = 62.187, df = 14, p-value = 4.833e-08
Interpretação: O resultado do teste indica uma diferença estatisticamente significativa na bilheteria global entre os gêneros. Isso sugere que o gênero do filme é um fator importante que pode influenciar o desempenho financeiro mundial dos filmes. Gêneros específicos, como ação ou animação, podem atrair audiências maiores e, portanto, gerar receitas mais altas, enquanto outros gêneros, como drama ou horror, podem ter um apelo mais limitado.
Pergunta 2: O gênero do filme está relacionado ao orçamento?
kruskal.test(Budget ~ Genre, data = movies)
Kruskal-Wallis rank sum test
data: Budget by Genre
Kruskal-Wallis chi-squared = 146.67, df = 14, p-value < 2.2e-16
Interpretação: Este resultado indica que os orçamentos dos filmes variam substancialmente entre os gêneros. Isso pode ser explicado pelo fato de que certos gêneros, como ação e fantasia, frequentemente exigem efeitos especiais caros, cenários elaborados e sequências de ação, resultando em orçamentos maiores. Em contraste, gêneros como comédia ou drama podem ser produzidos com recursos financeiros mais modestos.
Pergunta 3: O estúdio está relacionado à bilheteria global?
kruskal.test(WorldGross ~ LeadStudio, data = movies)
Kruskal-Wallis rank sum test
data: WorldGross by LeadStudio
Kruskal-Wallis chi-squared = 128.53, df = 13, p-value < 2.2e-16
Interpretação: Esse resultado sugere que os estúdios têm um impacto substancial na bilheteria global dos filmes. Estúdios renomados e bem estabelecidos, como Warner Bros e Disney, têm maior capacidade de promoção, distribuição e produção de filmes de alto orçamento, o que frequentemente resulta em maiores receitas, enquanto estúdios menores podem não ter os mesmos recursos para investir em marketing e produção.
Pergunta 4: A nota da audiência está relacionada à bilheteria global? - I
kruskal.test(WorldGross ~ AudienceScore, data = movies)
Kruskal-Wallis rank sum test
data: WorldGross by AudienceScore
Kruskal-Wallis chi-squared = 98.083, df = 3, p-value < 2.2e-16
Interpretação: Isso indica que a percepção da audiência, conforme refletida nas notas, está fortemente associada ao desempenho financeiro dos filmes. Filmes que recebem notas mais altas tendem a atrair mais espectadores, resultando em maiores bilheteiras. Por outro lado, filmes com avaliações negativas podem afastar o público, levando a receitas menores.
Este resultado destaca a importância das críticas e da opinião pública no sucesso comercial dos filmes.
Quando o teste de Kruskal-Wallis indica uma diferença significativa entre os grupos (ou seja, rejeitamos a hipótese nula), isso sugere que pelo menos um dos grupos difere dos outros. Para identificar especificamente quais grupos diferem entre si, devemos realizar um teste de comparações múltiplas pós-hoc. Um dos testes mais comuns para isso é o teste de Dunn.
Teste de Dunn
Código do Teste de Dunn para a 4ª pergunta:
dunn.test(movies$WorldGross, movies$AudienceScore, kw = TRUE, label = TRUE,
rmc = TRUE, alpha = 0.05) Kruskal-Wallis rank sum test
data: x and group
Kruskal-Wallis chi-squared = 98.0829, df = 3, p-value = 0
Comparison of x by group
(No adjustment)
Row Mean-|
Col Mean | bom ótimo péssimo
---------+---------------------------------
ótimo | 5.179984
| 0.0000*
|
péssimo | -1.983703 -3.054941
| 0.0236* 0.0011*
|
ruim | -5.995800 -9.689164 0.745708
| 0.0000* 0.0000* 0.2279
alpha = 0.05
Reject Ho if p <= alpha/2
Os resultados mostram que praticamente todas as comparações possuem diferença significativa, sendo péssimo x ruim a única com um p-valor maior que 0.05.
Conclusão
Neste trabalho, exploramos fatores que influenciam a bilheteria global de filmes de Hollywood. Utilizando o teste Kruskal-Wallis, analisamos variáveis como gênero, estúdio, orçamento e nota da audiência.
Descobrimos que o gênero do filme está relacionado à bilheteria, indicando que certos gêneros atraem mais público e, consequentemente, geram maiores receitas.
A análise dos estúdios mostrou que estúdios maiores, como Warner Bros e Disney, têm um impacto significativo na bilheteria, refletindo sua capacidade de promover e distribuir filmes de forma mais eficaz.
Por fim, a nota da audiência no Rotten Tomatoes também se mostrou um fator crucial, com filmes bem avaliados atraindo mais espectadores e gerando maiores receitas.