Trabalho Final v2

INTRODUÃÃO

A base de dados escolhida para o trabalho final foi encontrada atravÃ©s da ferramenta Google Data Set,ela contÃ©m informaÃ§Ãµes sobre a sitcom americana The Office. The Office Ã© uma sÃ©rie televisiva de comÃ©dia em formato de pseudodocumentÃ¡rio, disponÃvel atualmente nos streammings Amazon Prime e Globo Play, os episÃ³dios retratam o cotidiano dos funcionÃ¡rios da filal de Scranton da Dunder Mifflin Paper Company. A sÃ©rie estreou em 2005 e encerrou em 2013, ao todo foram 9 temporadas.

01.OBJETIVOS

A sÃ©rie conta com um humor Ã¡cido e politicamente incorreto. Ao longo das temporadas temos alguns personagens fixos do escritÃ³rio, dentre eles, Michael Scott, interpretado por Steve Carell. Michael Ã© o gerente regional da filial, e um dos personagem com a maior evoluÃ§Ã£o e crescimento ao longo da sÃ©rie. Ele por muita vezes Ã© o que chamarÃamos de âsem noÃ§Ã£oâ, mas em alguns momentos demonstra ser um lÃder preocupado com o desenvolvimento e bem estar de sua equipe.

SORRY, MAS CONTÃM SPOILER

Se vocÃª nÃ£o assistiu a sÃ©rie, peÃ§o desculpas pelo spoiler a seguir, mas ainda assim, assista pois vale a pena!

O objetivo desse trabalho Ã© usar a base de dados escolhida para avaliar a influÃªncia que a saÃda do personagem Michael Scott (Steve Carell) teve na audiÃªncia da sÃ©rie, esta anÃ¡lise Ã© pertinente pois ele Ã© um dos personagens principais e muito popular para os fÃ£s da sÃ©rie, entÃ£o atravÃ©s de métodos estatÃticos, verificarei se existe essa correlaÃ§Ã£o.

02.METODOLOGIA

A base dados escolhida possui originalmente 12 variÃ¡veis, sendo 06 numÃ©ricas (quantitativas) e 06 qualitativas.

ComeÃ§arei o trabalho carregando as bibliotecas utilizadas para uso no trabalho e a base de dados.

#Passo 0 - Carregar as bibliotecas:
library(dplyr) #Permite usar operador %>%


Attaching package: 'dplyr'

The following objects are masked from 'package:stats':

    filter, lag

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union

library(flextable) #Permite usar tabela
library(reactable) #Permite usar tabela
library(RColorBrewer) # Permite colorir
library(readxl) #Permite ler arquivo Excel
library(readr) #Permite ler arquivo CSV
library(RcmdrMisc) #Normal

Loading required package: car

Loading required package: carData


Attaching package: 'car'

The following object is masked from 'package:dplyr':

    recode

Loading required package: sandwich

#Passo 1 - Carregando a Base de Dados
the_office_series <- read_csv("C:/Users/loren/Downloads/Estatistica/2021.2/Bases_Trabalho_Final_2021.2/the_office_series.csv")


-- Column specification --------------------------------------------------------
cols(
  X1 = col_double(),
  Season = col_double(),
  EpisodeTitle = col_character(),
  About = col_character(),
  Ratings = col_double(),
  Votes = col_double(),
  Viewership = col_double(),
  Duration = col_double(),
  Date = col_character(),
  GuestStars = col_character(),
  Director = col_character(),
  Writers = col_character()
)

Como as variÃ¡veis da base estavam em inglÃªs, o que de certa forma para as anÃ¡lises ao longo do trabalho me exigiriam uma atenÃ§Ã£o maior para nÃ£o confundir as informaÃ§Ãµes, optei por traduzir as colunas das vÃ¡riaveis.

#Passo 1.1 - Compreendendo a base
head(the_office_series)

# A tibble: 6 x 12
     X1 Season EpisodeTitle  About       Ratings Votes Viewership Duration Date 
  <dbl>  <dbl> <chr>         <chr>         <dbl> <dbl>      <dbl>    <dbl> <chr>
1     0      1 Pilot         The premie~     7.5  4936       11.2       23 24 M~
2     1      1 Diversity Day Michael's ~     8.3  4801        6         23 29 M~
3     2      1 Health Care   Michael le~     7.8  4024        5.8       22 5 Ap~
4     3      1 The Alliance  Just for a~     8.1  3915        5.4       23 12 A~
5     4      1 Basketball    Michael an~     8.4  4294        5         23 19 A~
6     5      1 Hot Girl      Michael is~     7.7  3854        4.8       23 26 A~
# ... with 3 more variables: GuestStars <chr>, Director <chr>, Writers <chr>

#Passo 1.2 - Traduzindo as VariÃ¡veis

#Season x Temporada  - NÃ£o modificado
#Episode Title x TÃtulo do EpisÃ³dio - NÃ£o modificado
#About x Sobre - NÃ£o modificado
#Ratings x AvaliaÃ§Ãµes
the_office_series <- the_office_series %>% rename(Avaliacoes=Ratings)
#Votes x Votos - NÃ£o modificado
#Viewership x Audiencias
the_office_series <- the_office_series %>% rename(Audiencia=Viewership)
#Duration x DuraÃ§Ã£o - NÃ£o modificado
#Date x Data - NÃ£o modificado
#Gueststars x Estrelas Convidadas - NÃ£o modificado
#Director x Diretor - NÃ£o modificado
#Writers x Escritor - NÃ£o modificado

Com os ajustes relizados, observei a necessidade criar de uma informaÃ§Ã£o binÃ¡ria que fornecesse a participaÃ§Ã£o do personagem Michael Scott. Mas para isso seria preciso primeiro saber o Ãºltimo episodio que houve a sua participaÃ§Ã£o, e assim, agregar uma variÃ¡vel a base. Permintindo assim segregar a participação ou não do personagem.

#Passo 1.3 - 13 VariÃ¡vel: ParticipaÃ§Ã£o Michael Scott
the_office_series$Michael <- ifelse(the_office_series$X1<138,"Michael","No Michael")

2.1 OPERACIONALIZAÃÃO

Primeiria iniciativa foi montar uma tabela que fosse possÃvel a visualizaÃ§Ã£o da variÃ¡vel binÃ¡ria criada para a anÃ¡lise e em seguida, montei uma tabela que cruzasse as variaveis qualitativa (Michael) e a quantitativa (audiÃªncia).

#Passo 1.4 - Montanto Tabela
names(the_office_series) #FunÃ§Ã£o para visualizar as variÃ¡veis

 [1] "X1"           "Season"       "EpisodeTitle" "About"        "Avaliacoes"  
 [6] "Votes"        "Audiencia"    "Duration"     "Date"         "GuestStars"  
[11] "Director"     "Writers"      "Michael"

Part_Michael <-table(the_office_series$Michael)

#Passo 1.5 - Cruzando as VariÃ¡veis Qualitativa (Michael) x Quantitativa () 

Par_M <- the_office_series %>% select(Michael,Audiencia) %>%
  group_by(Michael) %>%
  summarise(Media_Audiencia=mean(Audiencia),
            Desvp_Audiencia=sd(Audiencia),
            Media2=mean(Audiencia),
            Desvp2=sd(Audiencia),
            tamanho=n()) %>%
            data.frame() %>% flextable()

Par_M %>% theme_zebra()

Michael	Media_Audiencia	Desvp_Audiencia	Media2	Desvp2	tamanho
Michael	8.09587	1.644505	8.09587	1.644505	138
No Michael	4.90160	1.042016	4.90160	1.042016	50

2.2 GRÃFICO BOXPLOT

Montei o boxplot para visualizar a correlaÃ§Ã£o, analisando a simetria, e desta forma foi possÃvel perceber que com a participaÃ§Ã£o do Michel, temos uma distribuiÃ§Ã£o simÃ©trica, uma vez que a linha da mediana encontra- se no centro do grÃ¡fico. JÃ¡ quando o personagem deixa a sÃ©rie, observamos uma queda na audiÃªncia visÃvel pelo eixo Y e um boxplot assimÃ©trico, pois a mediana estÃ¡ mais prÃ³xima ao primeiro quartil.

# Passo 1.6 - GrÃ¡fico
boxplot(Audiencia~Michael,data=the_office_series,
        main="AudiÃªncia x Personagem Micheal Scott",
        col=c(2))

COR <- brewer.pal(2,"Dark2")
COR

[1] "#1B9E77" "#D95F02" "#7570B3"

2.3 TESTE DE HIPÃTESE

A minha hipÃ³tese era identificar se houve ou nÃ£o queda na audiÃªncia por conta da saÃda do personagem.

Sendo assim, formulei a seguinte hipÃ³tese:

H0: SaÃda do Michael = Queda na audiÃªncia H1: SaÃda do Michael != Queda na audiÃªncia

# Passo 1.7 - Formulando HipÃ³tese
options(scipen = 999) #Para nÃ£o apresentar resultados em notaÃ§Ã£o ciÃªnctÃfica

# H0: SaÃda do Michael = Queda na audiÃªncia
# H1:  SaÃda do Michael != Queda na audiÃªncia
# Alpha: 0.05
# P-valor < 0.05 rej H0
# P-valor > 0.05 Ã± rej H0

#PASSO 1.8 - TESTE DE NORMALIDADE - ANOVA
#-------------------------------------#-------------------------------------
# Retomando o que jÃ¡ foi feito:
#-------------------------------------#-------------------------------------
#Passo 1 - Carregando a Base de Dados
the_office_series <- read_csv("C:/Users/loren/Downloads/Estatistica/2021.2/Bases_Trabalho_Final_2021.2/the_office_series.csv")


-- Column specification --------------------------------------------------------
cols(
  X1 = col_double(),
  Season = col_double(),
  EpisodeTitle = col_character(),
  About = col_character(),
  Ratings = col_double(),
  Votes = col_double(),
  Viewership = col_double(),
  Duration = col_double(),
  Date = col_character(),
  GuestStars = col_character(),
  Director = col_character(),
  Writers = col_character()
)

#Passo 1.2 - Traduzindo as VariÃ¡veis

#Season x Temporada  - NÃ£o modificado
#Episode Title x TÃtulo do EpisÃ³dio - NÃ£o modificado
#About x Sobre - NÃ£o modificado
#Ratings x AvaliaÃ§Ãµes
the_office_series <- the_office_series %>% rename(Avaliacoes=Ratings)
#Votes x Votos - NÃ£o modificado
#Viewership x Audiencias
the_office_series <- the_office_series %>% rename(Audiencia=Viewership)
#Duration x DuraÃ§Ã£o - NÃ£o modificado
#Date x Data - NÃ£o modificado
#Gueststars x Estrelas Convidadas - NÃ£o modificado
#Director x Diretor - NÃ£o modificado
#Writers x Escritor - NÃ£o modificado

#Passo 1.3 - 13 VariÃ¡vel: ParticipaÃ§Ã£o Michael Scott
the_office_series$Michael <- ifelse(the_office_series$X1<138,"Michael","No Michael")
names(the_office_series)

 [1] "X1"           "Season"       "EpisodeTitle" "About"        "Avaliacoes"  
 [6] "Votes"        "Audiencia"    "Duration"     "Date"         "GuestStars"  
[11] "Director"     "Writers"      "Michael"

#-------------------------------------#-------------------------------------
#modeloMS <- aov(Michael~Audiencia, data = the_office_series)
#residuosMS <- residuals(modeloMS)

#shapiro.test(residuosMS)



# WILCOXON - 2 GRUPOS 
#------------------------------------------------------------------#

# H0: a distribuiÃ§Ã£o do desempenho de quem trabalha Ã© = a distribuiÃ§Ã£o de quem nÃ£o trabalha 
# H1: a distribuiÃ§Ã£o do desempenho de quem trabalha Ã© != a distribuiÃ§Ã£o de quem nÃ£o trabalha 
 
#Alpha: 0.05
# P-valor < 0.05 rej H0
# P-valor > 0.05 Ã± rej H0

Infelizmente, nÃ£o consegui realizar as validaÃ§Ãµes prÃ©vias, sendo assim me guiei para fluxograma que se enquadrava na minha base para escolher o teste de Wilcoxon.

2.4 TESTE DE WILCOXON

A minha hipÃ³tese era identificar se houve ou nÃ£o queda na audiÃªncia por conta da saÃda do personagem.

Sendo assim, formulei a seguinte hipÃ³tese:

H0: SaÃda do Michael = Queda na audiÃªncia H1: SaÃda do Michael != Queda na audiÃªncia

# Passo 1.7 - Formulando HipÃ³tese
options(scipen = 999) #Para nÃ£o apresentar resultados em notaÃ§Ã£o ciÃªnctÃfica

# H0: SaÃda do Michael = Queda na audiÃªncia
# H1:  SaÃda do Michael != Queda na audiÃªncia
# Alpha: 0.05
# P-valor < 0.05 rej H0
# P-valor > 0.05 Ã± rej H0

#PASSO 1.9 - TESTE DE WILCOXON
wilcox.test(Audiencia~Michael,data = the_office_series)


    Wilcoxon rank sum test with continuity correction

data:  Audiencia by Michael
W = 6717.5, p-value < 0.00000000000000022
alternative hypothesis: true location shift is not equal to 0

#Wilcoxon rank sum test with continuity correction

#data:  Audiencia by Michael
#W = 6717.5, p-value < 0.00000000000000022
#alternative hypothesis: true location shift is not equal to 0

#Resultado:
#Se p-valor < 0.05 rej H0
#p-value < 0.00000000000000022

03.CONCLUSÃO

AnÃ¡lise de resultados

O Teste de Wilcoxon, comprova estatisticamente que a audiÃªncia da sÃ©rie nÃ£o foi impactada pela saÃda do personagem, pois o p-valor foi muito inferior ao Alpha de 0.05 esperado para o experimento. O resultado Ã© interessante pois tendo o personagem participado de muito mais episÃ³dios do que o seu perÃodo de ausÃªncia, ainda que observada a diminuiÃ§Ã£o da audiÃªncia, a sua saÃda nÃ£o foi a causa.

Caberia uma nova anÃ¡lise para entender essa causualidade. Concluo portanto que a minha hipÃ³tese de correlaÃ§Ã£o entre a saÃda do Michael Scott e a queda na audiÃªncia da sÃ©rie nÃ£o possuem correlaÃ§Ã£o.

04.BIBLIOGRAFIA

Para a base de dados:https://www.kaggle.com/nehaprabhavalkar/the-office-dataset

Para consulta e elaboraÃ§Ã£o:https://aulas.metodosquantitativos.com/relatoriofinal/

Para consulta e elaboraÃ§Ã£o:https://github.com/DATAUNIRIO/R_Livros_e_Apostilas

Para consulta e elaboraÃ§Ã£o:https://docs.pipz.com/central-de-ajuda/learning-center/guia-basico-de-markdown#open

Para consulta e elaboraÃ§Ã£o:https://help.pipefy.com/pt-BR/articles/1343081-como-customizar-templates-de-email-html-e-markdown

Para as imagens: https://giphy.com/search/michael-scott

Trabalho Final v2

Lorena Pimentel

16/09/2021

INTRODUÃÃO

01.OBJETIVOS

SORRY, MAS CONTÃM SPOILER

02.METODOLOGIA

2.1 OPERACIONALIZAÃÃO

2.2 GRÃFICO BOXPLOT

2.3 TESTE DE HIPÃTESE

2.4 TESTE DE WILCOXON

03.CONCLUSÃO

AnÃ¡lise de resultados

04.BIBLIOGRAFIA

Trabalho Final v2

Lorena Pimentel

16/09/2021

INTRODUÃÃO

01.OBJETIVOS

SORRY, MAS CONTÃM SPOILER

02.METODOLOGIA

2.1 OPERACIONALIZAÃÃO

2.2 GRÃFICO BOXPLOT

2.3 TESTE DE HIPÃTESE

2.4 TESTE DE WILCOXON

03.CONCLUSÃO

AnÃ¡lise de resultados

04.BIBLIOGRAFIA

INTRODUÃÃO

SORRY, MAS CONTÃM SPOILER

2.1 OPERACIONALIZAÃÃO

2.2 GRÃFICO BOXPLOT

2.3 TESTE DE HIPÃTESE

03.CONCLUSÃO