A base de dados escolhida para o trabalho final foi encontrada através da ferramenta Google Data Set,ela contém informações sobre a sitcom americana The Office. The Office é uma série televisiva de comédia em formato de pseudodocumentário, disponÃvel atualmente nos streammings Amazon Prime e Globo Play, os episódios retratam o cotidiano dos funcionários da filal de Scranton da Dunder Mifflin Paper Company. A série estreou em 2005 e encerrou em 2013, ao todo foram 9 temporadas.
A série conta com um humor ácido e politicamente incorreto. Ao longo das temporadas temos alguns personagens fixos do escritório, dentre eles, Michael Scott, interpretado por Steve Carell. Michael é o gerente regional da filial, e um dos personagem com a maior evolução e crescimento ao longo da série. Ele por muita vezes é o que chamarÃamos de âsem noçãoâ, mas em alguns momentos demonstra ser um lÃder preocupado com o desenvolvimento e bem estar de sua equipe.
Se você não assistiu a série, peço desculpas pelo spoiler a seguir, mas ainda assim, assista pois vale a pena!
O objetivo desse trabalho é usar a base de dados escolhida para avaliar a influência que a saÃda do personagem Michael Scott (Steve Carell) teve na audiência da série, esta análise é pertinente pois ele é um dos personagens principais e muito popular para os fãs da série, então através de métodos estatÃticos, verificarei se existe essa correlação.
A base dados escolhida possui originalmente 12 variáveis, sendo 06 numéricas (quantitativas) e 06 qualitativas.
Começarei o trabalho carregando as bibliotecas utilizadas para uso no trabalho e a base de dados.
#Passo 0 - Carregar as bibliotecas:
library(dplyr) #Permite usar operador %>%
Attaching package: 'dplyr'
The following objects are masked from 'package:stats':
filter, lag
The following objects are masked from 'package:base':
intersect, setdiff, setequal, union
library(flextable) #Permite usar tabela
library(reactable) #Permite usar tabela
library(RColorBrewer) # Permite colorir
library(readxl) #Permite ler arquivo Excel
library(readr) #Permite ler arquivo CSV
library(RcmdrMisc) #NormalLoading required package: car
Loading required package: carData
Attaching package: 'car'
The following object is masked from 'package:dplyr':
recode
Loading required package: sandwich
#Passo 1 - Carregando a Base de Dados
the_office_series <- read_csv("C:/Users/loren/Downloads/Estatistica/2021.2/Bases_Trabalho_Final_2021.2/the_office_series.csv")
-- Column specification --------------------------------------------------------
cols(
X1 = col_double(),
Season = col_double(),
EpisodeTitle = col_character(),
About = col_character(),
Ratings = col_double(),
Votes = col_double(),
Viewership = col_double(),
Duration = col_double(),
Date = col_character(),
GuestStars = col_character(),
Director = col_character(),
Writers = col_character()
)
Como as variáveis da base estavam em inglês, o que de certa forma para as análises ao longo do trabalho me exigiriam uma atenção maior para não confundir as informações, optei por traduzir as colunas das váriaveis.
#Passo 1.1 - Compreendendo a base
head(the_office_series)# A tibble: 6 x 12
X1 Season EpisodeTitle About Ratings Votes Viewership Duration Date
<dbl> <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <chr>
1 0 1 Pilot The premie~ 7.5 4936 11.2 23 24 M~
2 1 1 Diversity Day Michael's ~ 8.3 4801 6 23 29 M~
3 2 1 Health Care Michael le~ 7.8 4024 5.8 22 5 Ap~
4 3 1 The Alliance Just for a~ 8.1 3915 5.4 23 12 A~
5 4 1 Basketball Michael an~ 8.4 4294 5 23 19 A~
6 5 1 Hot Girl Michael is~ 7.7 3854 4.8 23 26 A~
# ... with 3 more variables: GuestStars <chr>, Director <chr>, Writers <chr>
#Passo 1.2 - Traduzindo as Variáveis
#Season x Temporada - Não modificado
#Episode Title x TÃtulo do Episódio - Não modificado
#About x Sobre - Não modificado
#Ratings x Avaliações
the_office_series <- the_office_series %>% rename(Avaliacoes=Ratings)
#Votes x Votos - Não modificado
#Viewership x Audiencias
the_office_series <- the_office_series %>% rename(Audiencia=Viewership)
#Duration x Duração - Não modificado
#Date x Data - Não modificado
#Gueststars x Estrelas Convidadas - Não modificado
#Director x Diretor - Não modificado
#Writers x Escritor - Não modificadoCom os ajustes relizados, observei a necessidade criar de uma informação binária que fornecesse a participação do personagem Michael Scott. Mas para isso seria preciso primeiro saber o último episodio que houve a sua participação, e assim, agregar uma variável a base. Permintindo assim segregar a participação ou não do personagem.
#Passo 1.3 - 13 Variável: Participação Michael Scott
the_office_series$Michael <- ifelse(the_office_series$X1<138,"Michael","No Michael")Primeiria iniciativa foi montar uma tabela que fosse possÃvel a visualização da variável binária criada para a análise e em seguida, montei uma tabela que cruzasse as variaveis qualitativa (Michael) e a quantitativa (audiência).
#Passo 1.4 - Montanto Tabela
names(the_office_series) #Função para visualizar as variáveis [1] "X1" "Season" "EpisodeTitle" "About" "Avaliacoes"
[6] "Votes" "Audiencia" "Duration" "Date" "GuestStars"
[11] "Director" "Writers" "Michael"
Part_Michael <-table(the_office_series$Michael)
#Passo 1.5 - Cruzando as Variáveis Qualitativa (Michael) x Quantitativa ()
Par_M <- the_office_series %>% select(Michael,Audiencia) %>%
group_by(Michael) %>%
summarise(Media_Audiencia=mean(Audiencia),
Desvp_Audiencia=sd(Audiencia),
Media2=mean(Audiencia),
Desvp2=sd(Audiencia),
tamanho=n()) %>%
data.frame() %>% flextable()
Par_M %>% theme_zebra()Michael | Media_Audiencia | Desvp_Audiencia | Media2 | Desvp2 | tamanho |
Michael | 8.09587 | 1.644505 | 8.09587 | 1.644505 | 138 |
No Michael | 4.90160 | 1.042016 | 4.90160 | 1.042016 | 50 |
Montei o boxplot para visualizar a correlação, analisando a simetria, e desta forma foi possÃvel perceber que com a participação do Michel, temos uma distribuição simétrica, uma vez que a linha da mediana encontra- se no centro do gráfico. Já quando o personagem deixa a série, observamos uma queda na audiência visÃvel pelo eixo Y e um boxplot assimétrico, pois a mediana está mais próxima ao primeiro quartil.
# Passo 1.6 - Gráfico
boxplot(Audiencia~Michael,data=the_office_series,
main="Audiência x Personagem Micheal Scott",
col=c(2))COR <- brewer.pal(2,"Dark2")
COR[1] "#1B9E77" "#D95F02" "#7570B3"
A minha hipótese era identificar se houve ou não queda na audiência por conta da saÃda do personagem.
Sendo assim, formulei a seguinte hipótese:
H0: SaÃda do Michael = Queda na audiência H1: SaÃda do Michael != Queda na audiência
# Passo 1.7 - Formulando Hipótese
options(scipen = 999) #Para não apresentar resultados em notação ciênctÃfica
# H0: SaÃda do Michael = Queda na audiência
# H1: SaÃda do Michael != Queda na audiência
# Alpha: 0.05
# P-valor < 0.05 rej H0
# P-valor > 0.05 ñ rej H0
#PASSO 1.8 - TESTE DE NORMALIDADE - ANOVA
#-------------------------------------#-------------------------------------
# Retomando o que já foi feito:
#-------------------------------------#-------------------------------------
#Passo 1 - Carregando a Base de Dados
the_office_series <- read_csv("C:/Users/loren/Downloads/Estatistica/2021.2/Bases_Trabalho_Final_2021.2/the_office_series.csv")
-- Column specification --------------------------------------------------------
cols(
X1 = col_double(),
Season = col_double(),
EpisodeTitle = col_character(),
About = col_character(),
Ratings = col_double(),
Votes = col_double(),
Viewership = col_double(),
Duration = col_double(),
Date = col_character(),
GuestStars = col_character(),
Director = col_character(),
Writers = col_character()
)
#Passo 1.2 - Traduzindo as Variáveis
#Season x Temporada - Não modificado
#Episode Title x TÃtulo do Episódio - Não modificado
#About x Sobre - Não modificado
#Ratings x Avaliações
the_office_series <- the_office_series %>% rename(Avaliacoes=Ratings)
#Votes x Votos - Não modificado
#Viewership x Audiencias
the_office_series <- the_office_series %>% rename(Audiencia=Viewership)
#Duration x Duração - Não modificado
#Date x Data - Não modificado
#Gueststars x Estrelas Convidadas - Não modificado
#Director x Diretor - Não modificado
#Writers x Escritor - Não modificado
#Passo 1.3 - 13 Variável: Participação Michael Scott
the_office_series$Michael <- ifelse(the_office_series$X1<138,"Michael","No Michael")
names(the_office_series) [1] "X1" "Season" "EpisodeTitle" "About" "Avaliacoes"
[6] "Votes" "Audiencia" "Duration" "Date" "GuestStars"
[11] "Director" "Writers" "Michael"
#-------------------------------------#-------------------------------------
#modeloMS <- aov(Michael~Audiencia, data = the_office_series)
#residuosMS <- residuals(modeloMS)
#shapiro.test(residuosMS)
# WILCOXON - 2 GRUPOS
#------------------------------------------------------------------#
# H0: a distribuição do desempenho de quem trabalha é = a distribuição de quem não trabalha
# H1: a distribuição do desempenho de quem trabalha é != a distribuição de quem não trabalha
#Alpha: 0.05
# P-valor < 0.05 rej H0
# P-valor > 0.05 ñ rej H0Infelizmente, não consegui realizar as validações prévias, sendo assim me guiei para fluxograma que se enquadrava na minha base para escolher o teste de Wilcoxon.
A minha hipótese era identificar se houve ou não queda na audiência por conta da saÃda do personagem.
Sendo assim, formulei a seguinte hipótese:
H0: SaÃda do Michael = Queda na audiência H1: SaÃda do Michael != Queda na audiência
# Passo 1.7 - Formulando Hipótese
options(scipen = 999) #Para não apresentar resultados em notação ciênctÃfica
# H0: SaÃda do Michael = Queda na audiência
# H1: SaÃda do Michael != Queda na audiência
# Alpha: 0.05
# P-valor < 0.05 rej H0
# P-valor > 0.05 ñ rej H0
#PASSO 1.9 - TESTE DE WILCOXON
wilcox.test(Audiencia~Michael,data = the_office_series)
Wilcoxon rank sum test with continuity correction
data: Audiencia by Michael
W = 6717.5, p-value < 0.00000000000000022
alternative hypothesis: true location shift is not equal to 0
#Wilcoxon rank sum test with continuity correction
#data: Audiencia by Michael
#W = 6717.5, p-value < 0.00000000000000022
#alternative hypothesis: true location shift is not equal to 0
#Resultado:
#Se p-valor < 0.05 rej H0
#p-value < 0.00000000000000022O Teste de Wilcoxon, comprova estatisticamente que a audiência da série não foi impactada pela saÃda do personagem, pois o p-valor foi muito inferior ao Alpha de 0.05 esperado para o experimento. O resultado é interessante pois tendo o personagem participado de muito mais episódios do que o seu perÃodo de ausência, ainda que observada a diminuição da audiência, a sua saÃda não foi a causa.
Caberia uma nova análise para entender essa causualidade. Concluo portanto que a minha hipótese de correlação entre a saÃda do Michael Scott e a queda na audiência da série não possuem correlação.
Para a base de dados:https://www.kaggle.com/nehaprabhavalkar/the-office-dataset
Para consulta e elaboração:https://aulas.metodosquantitativos.com/relatoriofinal/
Para consulta e elaboração:https://github.com/DATAUNIRIO/R_Livros_e_Apostilas
Para consulta e elaboração:https://docs.pipz.com/central-de-ajuda/learning-center/guia-basico-de-markdown#open
Para consulta e elaboração:https://help.pipefy.com/pt-BR/articles/1343081-como-customizar-templates-de-email-html-e-markdown
Para apresentar a série: https://pt.wikipedia.org/wiki/The_Office_(Estados_Unidos)
Para as imagens: https://giphy.com/search/michael-scott