Testes de Hipótese & Ics

knitr::opts_chunk$set(echo=TRUE, warning=FALSE, message=FALSE, fig.width=12, fig.height=6)

library(ggplot2)
library(nortest)

3. Descreva qual teste de hipótese você usará para responder as perguntas escolhidas no CP 2 e porque. As premissas (assumptions) do teste são satisfeitas?

4. Responda as duas perguntas utilizando testes de hipótese. 

    a. Reporte os resultados de acordo com o que você viu de melhor no Prob 4 CP 1

    b. Compare os resultados com sua expectativa descrita no CP 2

    c. Comente sobre as vantagens e desvantagens que você vê no resultado ao qual chegou no Prob 3 e Prob 4 para as mesmas perguntas.

Neste checkpoint continuaremos a utilizar a base de dados sobre filmes do IMDB. O dataset possui informações sobre filmes lançados entre 1893 e 2005 e atributos como: nome do filme, ano de lançamento, duração, classificação, etc.

Para a escolha do teste estatístico correto precisamos atentar a alguns pontos:

A distribuição dos dados é normal?
Há emparelhamento de dados?
A amostra é suficientemente grande?
A amostra é isolada ou possui grupos?

movies <- read.csv("movies.csv")
movies$X <- NULL

A primeira pergunta selecionada foi:

1. Existe alguma relação entre o ano em que o filme foi lançado e a avaliação do mesmo?

H0: Não existe relação entre o ano de lançamento de um filme e a avaliação do mesmo.

H1: Existe relação entre o ano de lançamento de um filme e a avaliação do mesmo.

Como já observado no exercício de intervalo de confiança, acredito que não haja relação entre o ano de lançamento do filme e sua avaliação. Acredito que o p-valor assuma valores extremamente baixos (quase zero).

Até o ano de 1927 os desafios do cinema estavam relacionados as técnicas de produção, captura e edição das imagens, até que em 1927, a Warner lançou o filme “The Jazz Singer”, um musical que pela primeira vez na história do cinema tinha alguns diálogos e cantorias sincronizados aliados a partes totalmente sem som. Esse fato significou para a indústria cinematográfica um grande evento.

De forma a deixar a pergunta mais interessante, a refizemos:

1. Existe alguma relação entre a introdução da sonorização em filmes e a avaliação dos mesmos? Após a era do som os filmes passaram a receber melhores avaliações?

H0: Após a era do som os filmes **não** passaram a receber avaliações melhores dos espectadores (ou seja, a diferença média entre as avaliações dos dois grupos é 0 ou muito próximo de zero).

H1: Após a era do som os filmes passaram a receber avaliações melhores dos espectadores (ou seja, a diferença entre as avaliações dos grupos é maior que 0).

Assim, selecionaremos aleatoriamente e sem reposição as amostras dos dois grupos (antes e depois da era do som). Neste set de dados são não pareados, as amostras são suficientemente grandes (neste caso maiores que 100).

antes_som <- subset(movies, movies$year < 1927)
depois_som <- subset(movies, movies$year >= 1927)

amostra_antes <- antes_som[sample(1:nrow(antes_som), 350, replace=FALSE),]
amostra_depois <- depois_som[sample(1:nrow(depois_som), 350, replace=FALSE),]

rm(antes_som,depois_som)

ggplot(amostra_antes, aes(x=rating)) + 
  geom_histogram(aes(y = ..density..), binwidth = 0.1) + 
  geom_density() + 
  ggtitle("Densidade - Rating") +
  xlab("Rating") + ylab("Density")

ggplot(amostra_depois, aes(x=rating)) + 
  geom_histogram(aes(y = ..density..), binwidth = 0.1) + 
  geom_density() + 
  ggtitle("Densidade - Rating") +
  xlab("Rating") + ylab("Density")

qqnorm(amostra_antes$rating)

qqnorm(amostra_depois$rating)

De acordo com o formato das curvas, vemos que os dados possuem uma tendência a normalidade. Podemos confirmar isso aplicando sobre os dados os testes Shapiro-Wilk e Anderson-Darling (poderoso na identificação da não-normalidade).

Neste caso as hipóteses são:

H0: A amostra segue a distribuição normal

H1: A amostra não segue a distribuição normal

# Antes
shapiro.test(amostra_antes$rating)

## 
##  Shapiro-Wilk normality test
## 
## data:  amostra_antes$rating
## W = 0.97916, p-value = 5.939e-05

ad.test(amostra_antes$rating)

## 
##  Anderson-Darling normality test
## 
## data:  amostra_antes$rating
## A = 2.5165, p-value = 2.293e-06

# Depois
shapiro.test(amostra_depois$rating)

## 
##  Shapiro-Wilk normality test
## 
## data:  amostra_depois$rating
## W = 0.98741, p-value = 0.003933

ad.test(amostra_depois$rating)

## 
##  Anderson-Darling normality test
## 
## data:  amostra_depois$rating
## A = 1.6491, p-value = 0.0003065

Com base nos testes feitos acima e com uma significância de 95%, onde o p-valor das estatísticas calculadas são < 0.05, rejeitamos a hipótese nula de que os dados são provenientes de uma população normal.

Após essa análise concluímos que o melhor teste estatístico comparativo das duas amostras seja o Teste de Mann-Whitney-Wilcoxon ou Teste U. Esta escolha se dá visto que este é um teste não-paramétrico (não exige normalidade dos dados) para 2 grupos independentes.

wilcox.test(amostra_antes$rating,amostra_depois$rating, paired = FALSE, conf.level = 0.95)

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  amostra_antes$rating and amostra_depois$rating
## W = 70417, p-value = 0.000609
## alternative hypothesis: true location shift is not equal to 0

Temos que o p-valor do teste é menor que 0.05, o que nos possibilita rejeitar a hipótese nula de que os filmes não receberam avaliações melhores após a introdução do elemento som nas produções.

Foi possível identificar que existem diferenças entre as amostras, mas não foi especificado em que sentido. No teste podemos incluir também o parâmetro ‘alternative’ que nos permite especificar a hipótese alternativa, neste caso ‘g’ ou ‘greater’ que seria testarmos se a média de avaliações do segundo grupo é maior que a do primeiro.

wilcox.test(amostra_antes$rating,amostra_depois$rating, paired = FALSE, conf.level = 0.95, alternative = 'g')

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  amostra_antes$rating and amostra_depois$rating
## W = 70417, p-value = 0.0003045
## alternative hypothesis: true location shift is greater than 0

É considerado também que, a partir de um tamanho amostral maior que 20 para amostras não-normais, já podemos utilizar o teste t (aqui considera-se a ideia que quanto maior o tamanho amostral menos são sentidos os efeitos da não normalidade dos dados).

t.test(amostra_antes$rating, amostra_depois$rating, paired = FALSE, var.equal = FALSE, conf.level = 0.95)

## 
##  Welch Two Sample t-test
## 
## data:  amostra_antes$rating and amostra_depois$rating
## t = 3.2297, df = 693.11, p-value = 0.001298
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.1441747 0.5912538
## sample estimates:
## mean of x mean of y 
##  6.276571  5.908857

Por fim, rejeitando a hipótese nula, podemos afirmar com 95% de confiança que há uma diferença significativa na avaliação dos filmes após a Era do Som, ou seja, para os nossos dados há evidência estatística de que esse evento tenha proporcionado avaliações mais generosas.

A segunda pergunta selecionada foi:

2. Qual a variação da classificação entre filmes do gênero comédia e horror?

H0: A variação da classificação entre os gêneros comédia e horror é igual.

H1: A variação da classificação entre os gêneros comédia e horror é diferente.

Acredito que o valor da estatística p seja, também, extremamente próximo de zero.

Referências

https://pt.wikipedia.org/wiki/Hist%C3%B3ria_do_cinema

Testes de Hipótese & Ics

Fundamentos de Pesquisa em Ciência da Computação

6 de junho de 2016

Referências