knitr::opts_chunk$set(echo=TRUE, warning=FALSE, message=FALSE, fig.width=12, fig.height=6)
library(ggplot2)
library(nortest)
3. Descreva qual teste de hipótese você usará para responder as perguntas escolhidas no CP 2 e porque. As premissas (assumptions) do teste são satisfeitas?
4. Responda as duas perguntas utilizando testes de hipótese.
a. Reporte os resultados de acordo com o que você viu de melhor no Prob 4 CP 1
b. Compare os resultados com sua expectativa descrita no CP 2
c. Comente sobre as vantagens e desvantagens que você vê no resultado ao qual chegou no Prob 3 e Prob 4 para as mesmas perguntas.
Neste checkpoint continuaremos a utilizar a base de dados sobre filmes do IMDB. O dataset possui informações sobre filmes lançados entre 1893 e 2005 e atributos como: nome do filme, ano de lançamento, duração, classificação, etc.
Para a escolha do teste estatístico correto precisamos atentar a alguns pontos:
A distribuição dos dados é normal?
Há emparelhamento de dados?
A amostra é suficientemente grande?
A amostra é isolada ou possui grupos?
movies <- read.csv("movies.csv")
movies$X <- NULL
A primeira pergunta selecionada foi:
1. Existe alguma relação entre o ano em que o filme foi lançado e a avaliação do mesmo?
H0: Não existe relação entre o ano de lançamento de um filme e a avaliação do mesmo.
H1: Existe relação entre o ano de lançamento de um filme e a avaliação do mesmo.
Como já observado no exercício de intervalo de confiança, acredito que não haja relação entre o ano de lançamento do filme e sua avaliação. Acredito que o p-valor assuma valores extremamente baixos (quase zero).
Até o ano de 1927 os desafios do cinema estavam relacionados as técnicas de produção, captura e edição das imagens, até que em 1927, a Warner lançou o filme “The Jazz Singer”, um musical que pela primeira vez na história do cinema tinha alguns diálogos e cantorias sincronizados aliados a partes totalmente sem som. Esse fato significou para a indústria cinematográfica um grande evento.
De forma a deixar a pergunta mais interessante, a refizemos:
1. Existe alguma relação entre a introdução da sonorização em filmes e a avaliação dos mesmos? Após a era do som os filmes passaram a receber melhores avaliações?
H0: Após a era do som os filmes **não** passaram a receber avaliações melhores dos espectadores (ou seja, a diferença média entre as avaliações dos dois grupos é 0 ou muito próximo de zero).
H1: Após a era do som os filmes passaram a receber avaliações melhores dos espectadores (ou seja, a diferença entre as avaliações dos grupos é maior que 0).
Assim, selecionaremos aleatoriamente e sem reposição as amostras dos dois grupos (antes e depois da era do som). Neste set de dados são não pareados, as amostras são suficientemente grandes (neste caso maiores que 100).
antes_som <- subset(movies, movies$year < 1927)
depois_som <- subset(movies, movies$year >= 1927)
amostra_antes <- antes_som[sample(1:nrow(antes_som), 350, replace=FALSE),]
amostra_depois <- depois_som[sample(1:nrow(depois_som), 350, replace=FALSE),]
rm(antes_som,depois_som)
ggplot(amostra_antes, aes(x=rating)) +
geom_histogram(aes(y = ..density..), binwidth = 0.1) +
geom_density() +
ggtitle("Densidade - Rating") +
xlab("Rating") + ylab("Density")
ggplot(amostra_depois, aes(x=rating)) +
geom_histogram(aes(y = ..density..), binwidth = 0.1) +
geom_density() +
ggtitle("Densidade - Rating") +
xlab("Rating") + ylab("Density")
qqnorm(amostra_antes$rating)
qqnorm(amostra_depois$rating)
De acordo com o formato das curvas, vemos que os dados possuem uma tendência a normalidade. Podemos confirmar isso aplicando sobre os dados os testes Shapiro-Wilk e Anderson-Darling (poderoso na identificação da não-normalidade).
Neste caso as hipóteses são:
H0: A amostra segue a distribuição normal
H1: A amostra não segue a distribuição normal
# Antes
shapiro.test(amostra_antes$rating)
##
## Shapiro-Wilk normality test
##
## data: amostra_antes$rating
## W = 0.97916, p-value = 5.939e-05
ad.test(amostra_antes$rating)
##
## Anderson-Darling normality test
##
## data: amostra_antes$rating
## A = 2.5165, p-value = 2.293e-06
# Depois
shapiro.test(amostra_depois$rating)
##
## Shapiro-Wilk normality test
##
## data: amostra_depois$rating
## W = 0.98741, p-value = 0.003933
ad.test(amostra_depois$rating)
##
## Anderson-Darling normality test
##
## data: amostra_depois$rating
## A = 1.6491, p-value = 0.0003065
Com base nos testes feitos acima e com uma significância de 95%, onde o p-valor das estatísticas calculadas são < 0.05, rejeitamos a hipótese nula de que os dados são provenientes de uma população normal.
Após essa análise concluímos que o melhor teste estatístico comparativo das duas amostras seja o Teste de Mann-Whitney-Wilcoxon ou Teste U. Esta escolha se dá visto que este é um teste não-paramétrico (não exige normalidade dos dados) para 2 grupos independentes.
wilcox.test(amostra_antes$rating,amostra_depois$rating, paired = FALSE, conf.level = 0.95)
##
## Wilcoxon rank sum test with continuity correction
##
## data: amostra_antes$rating and amostra_depois$rating
## W = 70417, p-value = 0.000609
## alternative hypothesis: true location shift is not equal to 0
Temos que o p-valor do teste é menor que 0.05, o que nos possibilita rejeitar a hipótese nula de que os filmes não receberam avaliações melhores após a introdução do elemento som nas produções.
Foi possível identificar que existem diferenças entre as amostras, mas não foi especificado em que sentido. No teste podemos incluir também o parâmetro ‘alternative’ que nos permite especificar a hipótese alternativa, neste caso ‘g’ ou ‘greater’ que seria testarmos se a média de avaliações do segundo grupo é maior que a do primeiro.
wilcox.test(amostra_antes$rating,amostra_depois$rating, paired = FALSE, conf.level = 0.95, alternative = 'g')
##
## Wilcoxon rank sum test with continuity correction
##
## data: amostra_antes$rating and amostra_depois$rating
## W = 70417, p-value = 0.0003045
## alternative hypothesis: true location shift is greater than 0
É considerado também que, a partir de um tamanho amostral maior que 20 para amostras não-normais, já podemos utilizar o teste t (aqui considera-se a ideia que quanto maior o tamanho amostral menos são sentidos os efeitos da não normalidade dos dados).
t.test(amostra_antes$rating, amostra_depois$rating, paired = FALSE, var.equal = FALSE, conf.level = 0.95)
##
## Welch Two Sample t-test
##
## data: amostra_antes$rating and amostra_depois$rating
## t = 3.2297, df = 693.11, p-value = 0.001298
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.1441747 0.5912538
## sample estimates:
## mean of x mean of y
## 6.276571 5.908857
Por fim, rejeitando a hipótese nula, podemos afirmar com 95% de confiança que há uma diferença significativa na avaliação dos filmes após a Era do Som, ou seja, para os nossos dados há evidência estatística de que esse evento tenha proporcionado avaliações mais generosas.
A segunda pergunta selecionada foi:
2. Qual a variação da classificação entre filmes do gênero comédia e horror?
H0: A variação da classificação entre os gêneros comédia e horror é igual.
H1: A variação da classificação entre os gêneros comédia e horror é diferente.
Acredito que o valor da estatística p seja, também, extremamente próximo de zero.