INTRODUÇÃO

A base de dados escolhida para o trabalho final foi encontrada através da ferramenta Google Data Set,ela contém informações sobre a sitcom americana The Office. The Office é uma série televisiva de comédia em formato de pseudodocumentário, disponível atualmente nos streammings Amazon Prime e Globo Play, os episódios retratam o cotidiano dos funcionários da filal de Scranton da Dunder Mifflin Paper Company. A série estreou em 2005 e encerrou em 2013, ao todo foram 9 temporadas.

01.OBJETIVOS

A série conta com um humor ácido e politicamente incorreto. Ao longo das temporadas temos alguns personagens fixos do escritório, dentre eles, Michael Scott, interpretado por Steve Carell. Michael é o gerente regional da filial, e um dos personagem com a maior evolução e crescimento ao longo da série. Ele por muita vezes é o que chamaríamos de “sem noção”, mas em alguns momentos demonstra ser um líder preocupado com o desenvolvimento e bem estar de sua equipe.

SORRY, MAS CONTÉM SPOILER

Se você não assistiu a série, peço desculpas pelo spoiler a seguir, mas ainda assim, assista pois vale a pena!

O objetivo desse trabalho é usar a base de dados escolhida para avaliar a influência que a saída do personagem Michael Scott (Steve Carell) teve na audiência da série, esta análise é pertinente pois ele é um dos personagens principais e muito popular para os fãs da série, então através de métodos estatíticos, verificarei se existe essa correlação.

02.METODOLOGIA

A base dados escolhida possui originalmente 12 variáveis, sendo 06 numéricas (quantitativas) e 06 qualitativas.

Começarei o trabalho carregando as bibliotecas utilizadas para uso no trabalho e a base de dados.

#Passo 0 - Carregar as bibliotecas:
library(dplyr) #Permite usar operador %>%

Attaching package: 'dplyr'
The following objects are masked from 'package:stats':

    filter, lag
The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union
library(flextable) #Permite usar tabela
library(reactable) #Permite usar tabela
library(RColorBrewer) # Permite colorir
library(readxl) #Permite ler arquivo Excel
library(readr) #Permite ler arquivo CSV
library(RcmdrMisc) #Normal
Loading required package: car
Loading required package: carData

Attaching package: 'car'
The following object is masked from 'package:dplyr':

    recode
Loading required package: sandwich
#Passo 1 - Carregando a Base de Dados
the_office_series <- read_csv("C:/Users/loren/Downloads/Estatistica/2021.2/Bases_Trabalho_Final_2021.2/the_office_series.csv")

-- Column specification --------------------------------------------------------
cols(
  X1 = col_double(),
  Season = col_double(),
  EpisodeTitle = col_character(),
  About = col_character(),
  Ratings = col_double(),
  Votes = col_double(),
  Viewership = col_double(),
  Duration = col_double(),
  Date = col_character(),
  GuestStars = col_character(),
  Director = col_character(),
  Writers = col_character()
)

Como as variáveis da base estavam em inglês, o que de certa forma para as análises ao longo do trabalho me exigiriam uma atenção maior para não confundir as informações, optei por traduzir as colunas das váriaveis.

#Passo 1.1 - Compreendendo a base
head(the_office_series)
# A tibble: 6 x 12
     X1 Season EpisodeTitle  About       Ratings Votes Viewership Duration Date 
  <dbl>  <dbl> <chr>         <chr>         <dbl> <dbl>      <dbl>    <dbl> <chr>
1     0      1 Pilot         The premie~     7.5  4936       11.2       23 24 M~
2     1      1 Diversity Day Michael's ~     8.3  4801        6         23 29 M~
3     2      1 Health Care   Michael le~     7.8  4024        5.8       22 5 Ap~
4     3      1 The Alliance  Just for a~     8.1  3915        5.4       23 12 A~
5     4      1 Basketball    Michael an~     8.4  4294        5         23 19 A~
6     5      1 Hot Girl      Michael is~     7.7  3854        4.8       23 26 A~
# ... with 3 more variables: GuestStars <chr>, Director <chr>, Writers <chr>
#Passo 1.2 - Traduzindo as Variáveis

#Season x Temporada  - Não modificado
#Episode Title x Título do Episódio - Não modificado
#About x Sobre - Não modificado
#Ratings x Avaliações
the_office_series <- the_office_series %>% rename(Avaliacoes=Ratings)
#Votes x Votos - Não modificado
#Viewership x Audiencias
the_office_series <- the_office_series %>% rename(Audiencia=Viewership)
#Duration x Duração - Não modificado
#Date x Data - Não modificado
#Gueststars x Estrelas Convidadas - Não modificado
#Director x Diretor - Não modificado
#Writers x Escritor - Não modificado

Com os ajustes relizados, observei a necessidade criar de uma informação binária que fornecesse a participação do personagem Michael Scott. Mas para isso seria preciso primeiro saber o último episodio que houve a sua participação, e assim, agregar uma variável a base. Permintindo assim segregar a participação ou não do personagem.

#Passo 1.3 - 13 Variável: Participação Michael Scott
the_office_series$Michael <- ifelse(the_office_series$X1<138,"Michael","No Michael")

2.1 OPERACIONALIZAÇÃO

Primeiria iniciativa foi montar uma tabela que fosse possível a visualização da variável binária criada para a análise e em seguida, montei uma tabela que cruzasse as variaveis qualitativa (Michael) e a quantitativa (audiência).

#Passo 1.4 - Montanto Tabela
names(the_office_series) #Função para visualizar as variáveis
 [1] "X1"           "Season"       "EpisodeTitle" "About"        "Avaliacoes"  
 [6] "Votes"        "Audiencia"    "Duration"     "Date"         "GuestStars"  
[11] "Director"     "Writers"      "Michael"     
Part_Michael <-table(the_office_series$Michael)

#Passo 1.5 - Cruzando as Variáveis Qualitativa (Michael) x Quantitativa () 

Par_M <- the_office_series %>% select(Michael,Audiencia) %>%
  group_by(Michael) %>%
  summarise(Media_Audiencia=mean(Audiencia),
            Desvp_Audiencia=sd(Audiencia),
            Media2=mean(Audiencia),
            Desvp2=sd(Audiencia),
            tamanho=n()) %>%
            data.frame() %>% flextable()

Par_M %>% theme_zebra()

2.2 GRÁFICO BOXPLOT

Montei o boxplot para visualizar a correlação, analisando a simetria, e desta forma foi possível perceber que com a participação do Michel, temos uma distribuição simétrica, uma vez que a linha da mediana encontra- se no centro do gráfico. Já quando o personagem deixa a série, observamos uma queda na audiência visível pelo eixo Y e um boxplot assimétrico, pois a mediana está mais próxima ao primeiro quartil.

# Passo 1.6 - Gráfico
boxplot(Audiencia~Michael,data=the_office_series,
        main="Audiência x Personagem Micheal Scott",
        col=c(2))

COR <- brewer.pal(2,"Dark2")
COR
[1] "#1B9E77" "#D95F02" "#7570B3"

2.3 TESTE DE HIPÓTESE

A minha hipótese era identificar se houve ou não queda na audiência por conta da saída do personagem.

Sendo assim, formulei a seguinte hipótese:

H0: Saída do Michael = Queda na audiência H1: Saída do Michael != Queda na audiência

# Passo 1.7 - Formulando Hipótese
options(scipen = 999) #Para não apresentar resultados em notação ciênctífica

# H0: Saída do Michael = Queda na audiência
# H1:  Saída do Michael != Queda na audiência
# Alpha: 0.05
# P-valor < 0.05 rej H0
# P-valor > 0.05 ñ rej H0

#PASSO 1.8 - TESTE DE NORMALIDADE - ANOVA
#-------------------------------------#-------------------------------------
# Retomando o que já foi feito:
#-------------------------------------#-------------------------------------
#Passo 1 - Carregando a Base de Dados
the_office_series <- read_csv("C:/Users/loren/Downloads/Estatistica/2021.2/Bases_Trabalho_Final_2021.2/the_office_series.csv")

-- Column specification --------------------------------------------------------
cols(
  X1 = col_double(),
  Season = col_double(),
  EpisodeTitle = col_character(),
  About = col_character(),
  Ratings = col_double(),
  Votes = col_double(),
  Viewership = col_double(),
  Duration = col_double(),
  Date = col_character(),
  GuestStars = col_character(),
  Director = col_character(),
  Writers = col_character()
)
#Passo 1.2 - Traduzindo as Variáveis

#Season x Temporada  - Não modificado
#Episode Title x Título do Episódio - Não modificado
#About x Sobre - Não modificado
#Ratings x Avaliações
the_office_series <- the_office_series %>% rename(Avaliacoes=Ratings)
#Votes x Votos - Não modificado
#Viewership x Audiencias
the_office_series <- the_office_series %>% rename(Audiencia=Viewership)
#Duration x Duração - Não modificado
#Date x Data - Não modificado
#Gueststars x Estrelas Convidadas - Não modificado
#Director x Diretor - Não modificado
#Writers x Escritor - Não modificado

#Passo 1.3 - 13 Variável: Participação Michael Scott
the_office_series$Michael <- ifelse(the_office_series$X1<138,"Michael","No Michael")
names(the_office_series)
 [1] "X1"           "Season"       "EpisodeTitle" "About"        "Avaliacoes"  
 [6] "Votes"        "Audiencia"    "Duration"     "Date"         "GuestStars"  
[11] "Director"     "Writers"      "Michael"     
#-------------------------------------#-------------------------------------
#modeloMS <- aov(Michael~Audiencia, data = the_office_series)
#residuosMS <- residuals(modeloMS)

#shapiro.test(residuosMS)



# WILCOXON - 2 GRUPOS 
#------------------------------------------------------------------#

# H0: a distribuição do desempenho de quem trabalha é = a distribuição de quem não trabalha 
# H1: a distribuição do desempenho de quem trabalha é != a distribuição de quem não trabalha 
 
#Alpha: 0.05
# P-valor < 0.05 rej H0
# P-valor > 0.05 ñ rej H0

Infelizmente, não consegui realizar as validações prévias, sendo assim me guiei para fluxograma que se enquadrava na minha base para escolher o teste de Wilcoxon.

2.4 TESTE DE WILCOXON

A minha hipótese era identificar se houve ou não queda na audiência por conta da saída do personagem.

Sendo assim, formulei a seguinte hipótese:

H0: Saída do Michael = Queda na audiência H1: Saída do Michael != Queda na audiência

# Passo 1.7 - Formulando Hipótese
options(scipen = 999) #Para não apresentar resultados em notação ciênctífica

# H0: Saída do Michael = Queda na audiência
# H1:  Saída do Michael != Queda na audiência
# Alpha: 0.05
# P-valor < 0.05 rej H0
# P-valor > 0.05 ñ rej H0

#PASSO 1.9 - TESTE DE WILCOXON
wilcox.test(Audiencia~Michael,data = the_office_series)

    Wilcoxon rank sum test with continuity correction

data:  Audiencia by Michael
W = 6717.5, p-value < 0.00000000000000022
alternative hypothesis: true location shift is not equal to 0
#Wilcoxon rank sum test with continuity correction

#data:  Audiencia by Michael
#W = 6717.5, p-value < 0.00000000000000022
#alternative hypothesis: true location shift is not equal to 0

#Resultado:
#Se p-valor < 0.05 rej H0
#p-value < 0.00000000000000022

03.CONCLUSÃO

Análise de resultados

O Teste de Wilcoxon, comprova estatisticamente que a audiência da série não foi impactada pela saída do personagem, pois o p-valor foi muito inferior ao Alpha de 0.05 esperado para o experimento. O resultado é interessante pois tendo o personagem participado de muito mais episódios do que o seu período de ausência, ainda que observada a diminuição da audiência, a sua saída não foi a causa.

Caberia uma nova análise para entender essa causualidade. Concluo portanto que a minha hipótese de correlação entre a saída do Michael Scott e a queda na audiência da série não possuem correlação.