1. Introdução

Goodreads é um site que foi criado em 2006 com o intuito de ser uma rede social para leitores e escritores, onde o usuário pode colocar o que está lendo no momento, adicionar o que vai ler, e o que já leu, além de dar nota e fazer resenhas sobre esses livros podendo compartilhar suas leituras com amigos na rede e também ver o que outros leitores estão lendo, pegando recomendações e trocando experiencia. O goodreads foi comprado pela amazon em 2013, quando ganhou mais notoriedade, hoje tendo mais de 125 milhões de usuários por todo o mundo.

Além de os leitores poderem compartilhar suas experiências literárias, o site possui uma comunidade de interação, onde tem grupos, discussões, quizzes, recomendações personalizadas, notícias exclusivas e listas de livros que são votados pelos próprios usuários e mudam constantemente, desde de listas de melhores livros de certo gênero ate listas de livros de autores específicos, sendo o trabalho a seguir tendo sido baseado em uma dessas listas disponíveis pra votação no goodreads.

2. Objetivo

O objetivo desse trabalho será analisar e interpretar os dados para tentar identificar as caracteristicas que um livro dentro da lista de Best Books of the 21st Century tem, usando as variáveis disponiveis dentro do banco de dados

2.1 Hipóteses de Pesquisa

Fantasia é o gênero literário que mais se destaca entre os livros da lista.

A grande maioria dos livros da lista teem como idioma original o inglês

Os gêneros literários tem mesma distribuição dentro da variável score e da média de notas dos livros.

Os livros com maior score são os que tem maiores notas(1 a 5).

Livros com maior score são os que tem maaior número total de notas dadas pelos leitores.

Na lista tem mais livros da primeira década do século XXI na lista do que de 2011 em diante.

A nota média dos livros não tem nenhuma associação com o número de pessoas que votaram na lista.

3. Metodologia

Nesse estudo foi utilizada uma base de dados referente a aproximadamente 1500 livros e 11 variaveis, retirados do goodreads da lista “Best Books of the 21st Century”,onde reune os Melhores Livros do Século XXI(janeiro de 2001 até a atualidade), que possui um sistema de votação, onde os usuários votam em seus livros preferidos,e qualquer livro pode ser adicionado a lista, contando que tenha sido publicado dentro do século XXI, atualmente a lista possui mais de 21 mil votos, porem a base de dados trabalhada é de 20/11/2019, publicada por Alhanoof Al Taisan postada em uma única versão, portanto os dados não estão atualizados, sendo de um período anterior a 2022.

O Criador da base de dados fez o processo usando BeautifulSoup.

O banco de dados está classificado conforme a lista do goodreads, do mais votado (id - 0, score: 392793), até o menos votado - (id 1499, score : 233), não tendo o número total de itens que a lista possui,no total a lista contem atualmente, 9.147 livros,porém nesse relatorio irei trabalhar apenas com os primeiros 1500 livros do banco de dados.

A base de dados é apresentada logo a seguir na integra:

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(readr)
library(corrplot)

## corrplot 0.92 loaded

library(flextable)
Goodreads_best1500books <- read_csv("Goodreads_best1500books.csv", 
                                    col_types = cols(avg_rating = col_number(), 
                                                     no_of_raters = col_number()))

## New names:
## * `` -> ...1

## Warning: One or more parsing issues, see `problems()` for details

Goodreads_best1500books$edition_language[Goodreads_best1500books$edition_language == "Fantasy"] <- "English"

options(scipen = 999)


library(DT)
datatable(Goodreads_best1500books)

Também sendo mostrado a descrição de todas as variáveis presentes na base dados, para uma melhor compreensão do trabalho, é apresentado um dicionário dos dados:

Variáveis <- c("Id","book_name","author_name","book_genre","year_published","edition_language","avg_rating","no_of_raters","score","no_of_ppl_voted","book_url")

Significado <- c("id do livro, indo de 0 a 1499","Título do livro","Nome do Autor/Autora","Gêreno literario do Livro","Ano de publicação","Idioma em que o livro foi escrito","Nota/Avaliação media de todas as notas dadas pelos usuarios do Goodreads, nota de 1 a 5","Número de leitores que avaliaram/deram nota para o livro","Pontuação total do livro dentro da lista, que leva em consideração varios fatores, como o número de pessoas que votaram e quão alto isso deixa eles no rank, quantas pessoas botaram o livro como primeiro de sua lista ou ultimo influencia no score","Número de pessoas que votaram no livro para estar na lista","Pagina do Livro dentro do site")
Dicionario_de_dados <- data.frame(Variáveis,Significado)
datatable(Dicionario_de_dados)

No estudo foram usados, graficos de barras,para as variáveis :idioma e gênero do livro.

Histograma da variável ano de publicação

Boxplot de cruzamento de variavel qualitativa por quantitativa, sendo as variáveis usadas nesses graficos : gênero literário,score e nota média dos livros.

diagramas de dispersão, para o cruzamento das variáveis quantitativas :ano de publicação, nota média, número total de notas dadas pelos leitores, score e número total de pessoas que votaram na lista.

Também foi feito o teste de correlação e uma matriz de correlação entre as mesmas variáveis quantitativas e os testes de hipóteses com as variáveis escolhidas.

4. Análise de Resultados

4.1 Gráficos de Barras:

Gênero Literário dos Livros

tabela_generol <- table(Goodreads_best1500books$book_genre)

coridioma <- c("#d62222","#e89015","#e3e329","#7be629","#338a46","#40dbbc","#23bdd9","#1a3cb8","#905ae0","#b544bd","#a12874")


par(cex=0.5)
a <- barplot(tabela_generol,col=c("#3c99b0"),main = "Gênero Literario do Livro",
             las = 2,
             space = c(0.4),
             ylim = c(0,400))
text(a,tabela_generol + 6,labels = tabela_generol)

A partir do gráfico de barras acima, pode-se ver com clareza a discrepancia entre os gêneros, é visto que o gênero que se destaca é Ficção, seguido de Fantasia, Jovem adulto( young adult) e não ficção. Além disso, dos 49 gêneros apresentados no gráfico, 13 deles, só tem um livro na lista.

Idioma original dos Livros

tabela_idioma <- table(Goodreads_best1500books$edition_language)


par(cex=0.6)
a <- barplot(tabela_idioma,col=c(coridioma),main = "Idioma original dos livros",
             las = 2,
             space = c(0.4),
             legend.text = rownames(tabela_idioma),
             args.legend = list(x= "topright"),
             ylim = c(0,1600))
text(a,tabela_idioma + 45,labels = tabela_idioma)

No gráfico nota-se sem dificuldade que a maioria dos livros são da lingua inglesa, sendo 1460 livros da lista.

Gênero literario por Idioma original dos Livros

tabela_ge_idioma<- Goodreads_best1500books %>% select(edition_language,book_genre) %>% table()


par(cex=0.6)
grafico <- tabela_ge_idioma %>% barplot(beside=F,
                                        col=c(coridioma),
                                        main= "gênero por idioma do livro",
                                        legend = rownames(tabela_ge_idioma),
                                        las=2,
                                        args.legend = list(x = "topright"))

No gráfico acima, novamente é visto como o idioma inglês está em grande maioria na lista e dentro dos gêneros literários, como era de se esperar.

4.2 Boxplot,Média e Desvio Padrão:

Score por Gênero Literario dos Livros

par(cex=0.7)
boxplot(score~book_genre, data = Goodreads_best1500books,
        col=c("#76c4ba","#0a8c7c"),
        horizontal = F,
        las = 2,
        space = c(1),
        main= "Boxplot - Score por Gênero Literário")

Goodreads_best1500books<-na.omit(Goodreads_best1500books)
Goodreads_best1500books %>% select(score,book_genre) %>%
  group_by(book_genre) %>% 
  summarise(MEDIA=round(mean(score),2),DESVIO_PADRAO=round(sd(score),2)) %>%
  flextable() %>% theme_zebra()

book_genre	MEDIA	DESVIO_PADRAO
Adventure	888.50	149.20
Art	380.50	183.14
Autobiography	1,655.33	2,179.33
Biography	577.67	438.73
Business	768.00
Childrens	341.33	54.85
Christian	637.80	334.01
Christian Fiction	992.00
Classics	497.00
Cultural	506.00	330.98
Dark	499.00
Environment	276.00
Erotica	299.00
Fantasy	6,182.04	31,138.79
Fiction	9,026.41	27,070.17
Food and Drink	1,010.00
Historical	5,551.75	24,673.16
History	1,589.07	3,352.00
Horror	1,714.27	2,197.07
Humor	2,322.00	4,735.57
LGBT	308.50	12.02
Music	555.67	429.65
Mystery	912.32	1,190.12
New Adult	645.00	70.71
Nonfiction	5,047.41	10,360.26
Novels	600.00
Paranormal	484.90	367.26
Parenting	396.50	142.13
Philosophy	278.67	30.89
Poetry	945.60	522.68
Politics	396.00	142.39
Psychology	903.50	1,065.55
Realistic Fiction	622.50	40.31
Religion	943.75	1,256.37
Romance	1,137.54	1,472.42
Science	291.00	1.41
Science Fiction	1,058.10	2,298.17
Self Help	294.00
Sequential Art	2,523.47	7,246.62
Short Stories	565.73	333.75
Spirituality	392.00
Suspense	1,697.00
Thriller	527.36	305.88
Travel	2,253.33	3,148.73
unknown	445.53	178.94
War	1,288.00
Womens Fiction	1,200.33	991.20
Young Adult	7,629.11	29,077.51

par(cex=0.5)
boxplot(score~book_genre, data = Goodreads_best1500books,
        col=c("#76c4ba","#0a8c7c"),
        horizontal = F,
        las = 2,
        ylim = c(0,10000),
        space = c(1),
        main= "Boxplot - Score por Gênero Literário")

Como o score chega na casa dos 400.000 os dados não são bem visualizados, então foi diminuido para 10.000 para melhor visualização dos dados.

No gráfico os gêneros literarios que mais possuem livros na lista,são os que tem maior mediana, porém também são os que tem maior desvio padrão, possuindo também mais outliers superiores.

Os gêneros literários que aparecem sem desvio padrão tem apenas um livro na lista.

Nota Média por Gênero Literario dos Livros

par(cex=0.5)
boxplot(avg_rating~book_genre, data = Goodreads_best1500books,
        col=c("purple","blue"),
        horizontal = F,
        las = 2,
        main= "gráfico 1 - Km/l por Tipo de Marcha")

Goodreads_best1500books<-na.omit(Goodreads_best1500books)
Goodreads_best1500books %>% select(avg_rating,book_genre) %>%
  group_by(book_genre) %>% 
  summarise(MEDIA=round(mean(avg_rating),2),DESVIO_PADRAO=round(sd(avg_rating),2)) %>%
  flextable() %>% theme_zebra()

book_genre	MEDIA	DESVIO_PADRAO
Adventure	4.46	0.18
Art	4.00	0.32
Autobiography	3.89	0.16
Biography	4.18	0.11
Business	3.70
Childrens	4.20	0.25
Christian	4.07	0.20
Christian Fiction	4.42
Classics	4.59
Cultural	3.89	0.04
Dark	3.85
Environment	4.10
Erotica	3.93
Fantasy	4.15	0.26
Fiction	3.83	0.27
Food and Drink	3.90
Historical	4.06	0.24
History	4.09	0.16
Horror	3.95	0.21
Humor	4.13	0.17
LGBT	4.19	0.33
Music	3.98	0.14
Mystery	4.03	0.21
New Adult	3.67	0.74
Nonfiction	4.03	0.25
Novels	3.79
Paranormal	3.93	0.08
Parenting	4.11	0.42
Philosophy	4.31	0.34
Poetry	4.19	0.37
Politics	4.04	0.09
Psychology	4.01	0.44
Realistic Fiction	4.18	0.29
Religion	4.20	0.22
Romance	4.11	0.22
Science	4.14	0.02
Science Fiction	4.02	0.26
Self Help	4.47
Sequential Art	4.19	0.24
Short Stories	3.95	0.30
Spirituality	4.76
Suspense	4.06
Thriller	4.12	0.20
Travel	4.09	0.21
unknown	4.56	0.32
War	4.01
Womens Fiction	3.77	0.13
Young Adult	3.99	0.22

No gráfico de nota média por gênero, ve-se uma distribuição simetrica entre os dados, tendo um desvio padrão pequeno, como é visto na tabela, tendo outliers superiores em certos gêneros e inferiores em outros, tendo ainda os gêneros que possuem ambos, outliers superiores e inferiores.

Como na tabela anterior, os gêneros que não aparecem desvio padrão possuem apenas um livro na lista.

4.3 Histograma:

Ano de Publicação dos Livros

hist(Goodreads_best1500books$year_published,col = "#c288d1",main = "Histograma - Ano de Publicação dos Livros",
     xlab = "Ano", ylab="Frequência",
     labels = TRUE,
     density = 60,
     las = 2,
     border = "#875575",
     ylim = c(0,400),
     xlim = c(2000,2020))

Pode-se ver que os dados tem uma concentração dos dados no lado esquerdo, sendo o gráfico assimetrico a direito, os dados estão concentrados entre os anos de 2004 a 2012, porém tem uma concentração maior de livros até 2010.

4.4 Diagramas de Dispersão:

Score por Nota Média dos Livros

Goodreads_best1500books<-na.omit(Goodreads_best1500books)
par(bg="#cfe3e0")
par(cex=1)
plot(Goodreads_best1500books$score,Goodreads_best1500books$avg_rating, pch=21,col="#60689e",
     main = "Diagrama de dispersão - Score por nota média dos livros",
     ylim = c (2.5,5),
     ylab = "Nota Media do Livro",
     xlab = "Score")
abline(lsfit(Goodreads_best1500books$score,Goodreads_best1500books$avg_rating),col="darkred")

cor(Goodreads_best1500books$score,Goodreads_best1500books$avg_rating)

## [1] 0.09328209

Pelo gráfico, é evidenciado uma correlação positiva fraca, onde a linha é crescente, e com o teste de correlação, que é mais precisa destaca uma correlação quase bem abaixo, chegando a 0,09.

Score por número total de notas dadas pelos leitores

Goodreads_best1500books<-na.omit(Goodreads_best1500books)
par(bg="#cfe3e0")
par(cex=0.5)
plot(Goodreads_best1500books$score,Goodreads_best1500books$no_of_raters, pch=16,col="#60689e",
     main = "Diagrama de dispersão - Score por numero total de avaliações de um livro",
     ylab = "Número total de notas de um livro",
     xlab = "Score")
abline(lsfit(Goodreads_best1500books$score,Goodreads_best1500books$no_of_raters),col="darkred")

cor(Goodreads_best1500books$score,Goodreads_best1500books$no_of_raters)

## [1] 0.7623406

Pelo gráfico acima, é visto uma correlação linear positiva forte, onde a linha é crescente, o que é confirmado pelo teste de correlação, que mostra uma correlação de 0,76.

Nota Média por número de pessoas que votaram na lista

Goodreads_best1500books<-na.omit(Goodreads_best1500books)
par(bg="#cfe3e0")
par(cex=0.5)
plot(Goodreads_best1500books$no_of_ppl_voted,Goodreads_best1500books$avg_rating, pch=21,col="#60689e",
     main = "Diagrama de dispersão - Score por numero total de avaliações de um livro",
     ylab = "media de avaliaçoes",
     xlab = "número de pessoas que votaram no livro para estar na lista")
abline(lsfit(Goodreads_best1500books$no_of_ppl_voted,Goodreads_best1500books$avg_rating),col="darkred")

cor(Goodreads_best1500books$no_of_ppl_voted,Goodreads_best1500books$avg_rating)

## [1] 0.09242055

O gráfico mostra uma correlação linear positiva fraca das variáveis, onde existe uma linha levemente crescente, o teste de correlação confirma essa baixa associação entre as variáveis, sendo a correlação de 0,09

4.5 Matriz de Correlação:

Goodreads_best1500books<-na.omit(Goodreads_best1500books)

selecao<- c("year_published","avg_rating","no_of_raters","score","no_of_ppl_voted")

correlacao_books <- cor(Goodreads_best1500books[,selecao])

library(corrplot)
corrplot(correlacao_books,addCoef.col=TRUE,number.cex=0.7)

A matriz de correlação corrobora o que foi apresentado nos diagramas de dispersão.

A variável Score tem correlação com as variáveis número total de notas e número total de pessoas que votaram na lista.

Além disso, há uma correlação entre as variáveis, ano de publicação e a média de notas.

4.6 Testes de Hipóteses:

Qualitativa X Qualitativa

Os testes foram iniciados, testando a associação entre as variáveis qualitativas: gênero e ano de publicaçao.

primeiro foi visto se as variáveis atendiam o pressuposto do teste qui-quadrado, foram usadas as seguintes hipóteses:

H0:Não há associacao entre as variaveis genero e idioma

H1:Há associacao entre as variaveis genero e idioma

Usando um alpha = 0,05

se p valor < alpha rejeito H0

se p valor > alpha nãop rejeito H0

genero_idioma <- table(Goodreads_best1500books$book_genre,Goodreads_best1500books$edition_language)

TQQ <- chisq.test(genero_idioma)

## Warning in chisq.test(genero_idioma): Chi-squared approximation may be incorrect

TQQ$expected

##                    
##                           Arabic    English      Finnish      French
##   Adventure         0.0013596193   1.949694 0.0013596193 0.006798097
##   Art               0.0013596193   1.949694 0.0013596193 0.006798097
##   Autobiography     0.0061182869   8.773623 0.0061182869 0.030591434
##   Biography         0.0061182869   8.773623 0.0061182869 0.030591434
##   Business          0.0006798097   0.974847 0.0006798097 0.003399048
##   Childrens         0.0020394290   2.924541 0.0020394290 0.010197145
##   Christian         0.0033990483   4.874235 0.0033990483 0.016995241
##   Christian Fiction 0.0006798097   0.974847 0.0006798097 0.003399048
##   Classics          0.0006798097   0.974847 0.0006798097 0.003399048
##   Cultural          0.0020394290   2.924541 0.0020394290 0.010197145
##   Dark              0.0006798097   0.974847 0.0006798097 0.003399048
##   Environment       0.0006798097   0.974847 0.0006798097 0.003399048
##   Erotica           0.0006798097   0.974847 0.0006798097 0.003399048
##   Fantasy           0.1821889871 261.259007 0.1821889871 0.910944935
##   Fiction           0.2549286200 365.567641 0.2549286200 1.274643100
##   Food and Drink    0.0006798097   0.974847 0.0006798097 0.003399048
##   Historical        0.0740992522 106.258328 0.0740992522 0.370496261
##   History           0.0183548606  26.320870 0.0183548606 0.091774303
##   Horror            0.0224337186  32.169952 0.0224337186 0.112168593
##   Humor             0.0095173351  13.647859 0.0095173351 0.047586676
##   LGBT              0.0013596193   1.949694 0.0013596193 0.006798097
##   Music             0.0040788579   5.849082 0.0040788579 0.020394290
##   Mystery           0.0401087695  57.515976 0.0401087695 0.200543848
##   New Adult         0.0013596193   1.949694 0.0013596193 0.006798097
##   Nonfiction        0.0781781101 112.107410 0.0781781101 0.390890551
##   Novels            0.0006798097   0.974847 0.0006798097 0.003399048
##   Paranormal        0.0067980965   9.748470 0.0067980965 0.033990483
##   Parenting         0.0013596193   1.949694 0.0013596193 0.006798097
##   Philosophy        0.0020394290   2.924541 0.0020394290 0.010197145
##   Poetry            0.0033990483   4.874235 0.0033990483 0.016995241
##   Politics          0.0020394290   2.924541 0.0020394290 0.010197145
##   Psychology        0.0027192386   3.899388 0.0027192386 0.013596193
##   Realistic Fiction 0.0013596193   1.949694 0.0013596193 0.006798097
##   Religion          0.0027192386   3.899388 0.0027192386 0.013596193
##   Romance           0.0428280082  61.415364 0.0428280082 0.214140041
##   Science           0.0013596193   1.949694 0.0013596193 0.006798097
##   Science Fiction   0.0394289599  56.541128 0.0394289599 0.197144799
##   Self Help         0.0006798097   0.974847 0.0006798097 0.003399048
##   Sequential Art    0.0115567641  16.572400 0.0115567641 0.057783821
##   Short Stories     0.0074779062  10.723317 0.0074779062 0.037389531
##   Spirituality      0.0006798097   0.974847 0.0006798097 0.003399048
##   Suspense          0.0006798097   0.974847 0.0006798097 0.003399048
##   Thriller          0.0169952413  24.371176 0.0169952413 0.084976207
##   Travel            0.0020394290   2.924541 0.0020394290 0.010197145
##   unknown           0.0115567641  16.572400 0.0115567641 0.057783821
##   War               0.0006798097   0.974847 0.0006798097 0.003399048
##   Womens Fiction    0.0081577158  11.698165 0.0081577158 0.040788579
##   Young Adult       0.1189666893 170.598232 0.1189666893 0.594833447
##                    
##                          German     Japanese     Persian  Portuguese
##   Adventure         0.004078858 0.0013596193 0.002719239 0.002719239
##   Art               0.004078858 0.0013596193 0.002719239 0.002719239
##   Autobiography     0.018354861 0.0061182869 0.012236574 0.012236574
##   Biography         0.018354861 0.0061182869 0.012236574 0.012236574
##   Business          0.002039429 0.0006798097 0.001359619 0.001359619
##   Childrens         0.006118287 0.0020394290 0.004078858 0.004078858
##   Christian         0.010197145 0.0033990483 0.006798097 0.006798097
##   Christian Fiction 0.002039429 0.0006798097 0.001359619 0.001359619
##   Classics          0.002039429 0.0006798097 0.001359619 0.001359619
##   Cultural          0.006118287 0.0020394290 0.004078858 0.004078858
##   Dark              0.002039429 0.0006798097 0.001359619 0.001359619
##   Environment       0.002039429 0.0006798097 0.001359619 0.001359619
##   Erotica           0.002039429 0.0006798097 0.001359619 0.001359619
##   Fantasy           0.546566961 0.1821889871 0.364377974 0.364377974
##   Fiction           0.764785860 0.2549286200 0.509857240 0.509857240
##   Food and Drink    0.002039429 0.0006798097 0.001359619 0.001359619
##   Historical        0.222297757 0.0740992522 0.148198504 0.148198504
##   History           0.055064582 0.0183548606 0.036709721 0.036709721
##   Horror            0.067301156 0.0224337186 0.044867437 0.044867437
##   Humor             0.028552005 0.0095173351 0.019034670 0.019034670
##   LGBT              0.004078858 0.0013596193 0.002719239 0.002719239
##   Music             0.012236574 0.0040788579 0.008157716 0.008157716
##   Mystery           0.120326309 0.0401087695 0.080217539 0.080217539
##   New Adult         0.004078858 0.0013596193 0.002719239 0.002719239
##   Nonfiction        0.234534330 0.0781781101 0.156356220 0.156356220
##   Novels            0.002039429 0.0006798097 0.001359619 0.001359619
##   Paranormal        0.020394290 0.0067980965 0.013596193 0.013596193
##   Parenting         0.004078858 0.0013596193 0.002719239 0.002719239
##   Philosophy        0.006118287 0.0020394290 0.004078858 0.004078858
##   Poetry            0.010197145 0.0033990483 0.006798097 0.006798097
##   Politics          0.006118287 0.0020394290 0.004078858 0.004078858
##   Psychology        0.008157716 0.0027192386 0.005438477 0.005438477
##   Realistic Fiction 0.004078858 0.0013596193 0.002719239 0.002719239
##   Religion          0.008157716 0.0027192386 0.005438477 0.005438477
##   Romance           0.128484024 0.0428280082 0.085656016 0.085656016
##   Science           0.004078858 0.0013596193 0.002719239 0.002719239
##   Science Fiction   0.118286880 0.0394289599 0.078857920 0.078857920
##   Self Help         0.002039429 0.0006798097 0.001359619 0.001359619
##   Sequential Art    0.034670292 0.0115567641 0.023113528 0.023113528
##   Short Stories     0.022433719 0.0074779062 0.014955812 0.014955812
##   Spirituality      0.002039429 0.0006798097 0.001359619 0.001359619
##   Suspense          0.002039429 0.0006798097 0.001359619 0.001359619
##   Thriller          0.050985724 0.0169952413 0.033990483 0.033990483
##   Travel            0.006118287 0.0020394290 0.004078858 0.004078858
##   unknown           0.034670292 0.0115567641 0.023113528 0.023113528
##   War               0.002039429 0.0006798097 0.001359619 0.001359619
##   Womens Fiction    0.024473148 0.0081577158 0.016315432 0.016315432
##   Young Adult       0.356900068 0.1189666893 0.237933379 0.237933379
##                    
##                          Spanish    unknown
##   Adventure         0.0013596193 0.02855201
##   Art               0.0013596193 0.02855201
##   Autobiography     0.0061182869 0.12848402
##   Biography         0.0061182869 0.12848402
##   Business          0.0006798097 0.01427600
##   Childrens         0.0020394290 0.04282801
##   Christian         0.0033990483 0.07138001
##   Christian Fiction 0.0006798097 0.01427600
##   Classics          0.0006798097 0.01427600
##   Cultural          0.0020394290 0.04282801
##   Dark              0.0006798097 0.01427600
##   Environment       0.0006798097 0.01427600
##   Erotica           0.0006798097 0.01427600
##   Fantasy           0.1821889871 3.82596873
##   Fiction           0.2549286200 5.35350102
##   Food and Drink    0.0006798097 0.01427600
##   Historical        0.0740992522 1.55608430
##   History           0.0183548606 0.38545207
##   Horror            0.0224337186 0.47110809
##   Humor             0.0095173351 0.19986404
##   LGBT              0.0013596193 0.02855201
##   Music             0.0040788579 0.08565602
##   Mystery           0.0401087695 0.84228416
##   New Adult         0.0013596193 0.02855201
##   Nonfiction        0.0781781101 1.64174031
##   Novels            0.0006798097 0.01427600
##   Paranormal        0.0067980965 0.14276003
##   Parenting         0.0013596193 0.02855201
##   Philosophy        0.0020394290 0.04282801
##   Poetry            0.0033990483 0.07138001
##   Politics          0.0020394290 0.04282801
##   Psychology        0.0027192386 0.05710401
##   Realistic Fiction 0.0013596193 0.02855201
##   Religion          0.0027192386 0.05710401
##   Romance           0.0428280082 0.89938817
##   Science           0.0013596193 0.02855201
##   Science Fiction   0.0394289599 0.82800816
##   Self Help         0.0006798097 0.01427600
##   Sequential Art    0.0115567641 0.24269205
##   Short Stories     0.0074779062 0.15703603
##   Spirituality      0.0006798097 0.01427600
##   Suspense          0.0006798097 0.01427600
##   Thriller          0.0169952413 0.35690007
##   Travel            0.0020394290 0.04282801
##   unknown           0.0115567641 0.24269205
##   War               0.0006798097 0.01427600
##   Womens Fiction    0.0081577158 0.17131203
##   Young Adult       0.1189666893 2.49830048

Pressuposto não atendido, observa-se valores menores que 5.

Então não será usado o teste qui-quadrado.

Usaremos então o teste de fisher com as mesmas hipoteses.

H0: Não há associacao entre as variaveis genero e idioma

H1: Há associacao entre as variaveis genero e idioma

Alpha = 0,05

Se p valor < alpha rejeito H0

Se p valor > alpha nãop rejeito H0

Fisher <- fisher.test(genero_idioma, simulate.p.value = TRUE,B = 1e6)
Fisher

## 
##  Fisher's Exact Test for Count Data with simulated p-value (based on
##  1000000 replicates)
## 
## data:  genero_idioma
## p-value = 0.02659
## alternative hypothesis: two.sided

P valor < alpha

Com esse resultado H0 é rejeitada, portanto há associação entre as variaveis gênero e idioma dos livros listados.

Teste de Normalidade das variáveis quantitativas

Em seguida foram pegas as variáveis quantitativas usadas e foi conferida sua normalidade.

Foram usadas as mesmas hipóteses e o mesmo nível de significância para todas as variáveis

H0: Os dados seguem uma distribuição normal

H1: Os dados não seguem uma distribuição normal

Alpha 0,05

Se p valor < alpha rejeito H0

Se p valor > alpha NÃO rejeito H0

—> Score

shapiro.test(Goodreads_best1500books$score)

## 
##  Shapiro-Wilk normality test
## 
## data:  Goodreads_best1500books$score
## W = 0.21788, p-value < 0.00000000000000022

P valor < alpha

A variável score não segue uma distribuição normal

—> Nota Média

shapiro.test(Goodreads_best1500books$avg_rating)

## 
##  Shapiro-Wilk normality test
## 
## data:  Goodreads_best1500books$avg_rating
## W = 0.99687, p-value = 0.004754

P valor < alpha

A variável nota média não segue uma distribuição normal

—> Número total de Notas

shapiro.test(Goodreads_best1500books$no_of_raters)

## 
##  Shapiro-Wilk normality test
## 
## data:  Goodreads_best1500books$no_of_raters
## W = 0.39755, p-value < 0.00000000000000022

P valor < alpha

A variável número total de notas não segue uma distribuição normal.

—> Número total de pessoas que votaram na lista

shapiro.test(Goodreads_best1500books$no_of_ppl_voted)

## 
##  Shapiro-Wilk normality test
## 
## data:  Goodreads_best1500books$no_of_ppl_voted
## W = 0.22738, p-value < 0.00000000000000022

P valor < alpha

A variável Número total de pessoas que votaram na lista não segue uma distribuição normal.

Conclui-se que nenhuma das variáveis quantitativas usadas seguem uma distribuição normal.

Quantitativa X Quantitaviva

Então,a seguir será usado o teste de spearman para todas as cinco variáveis quantitativas.

As hipóteses a seguir serão usadas para todos os cruzamentos de variáveis quantitativas

H0: rho = 0

H1: rho != 0

Alpha = 0,05

Se p valor < alpha rejeito H0

Se p valor > alpha não rejeito H0

—> Score Por Nota Média

cor.test(Goodreads_best1500books$score,Goodreads_best1500books$avg_rating,method = "spearman",conf.level = 0.95)

## Warning in cor.test.default(Goodreads_best1500books$score,
## Goodreads_best1500books$avg_rating, : Cannot compute exact p-value with ties

## 
##  Spearman's rank correlation rho
## 
## data:  Goodreads_best1500books$score and Goodreads_best1500books$avg_rating
## S = 524364383, p-value = 0.6575
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## 0.01156841

P valor > alpha

Com esse resultado, que não rejeita H0 vê-se que as variáveis score e nota media não tem correlação.

Confirmando o que foi mostrado no diagrama de dispersão e no teste de correlação.

—> score por Número Total de Notas

cor.test(Goodreads_best1500books$score,Goodreads_best1500books$no_of_raters,method = "spearman",conf.level = 0.95)

## Warning in cor.test.default(Goodreads_best1500books$score,
## Goodreads_best1500books$no_of_raters, : Cannot compute exact p-value with ties

## 
##  Spearman's rank correlation rho
## 
## data:  Goodreads_best1500books$score and Goodreads_best1500books$no_of_raters
## S = 250884560, p-value < 0.00000000000000022
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.5270803

P valor < alpha

Com essee resultado, que rejeita H0 ve-se que as variáveis score e número total de avaliaçoes tem correlação.

Confirmando o que foi mostrado no diagrama de dispersão e no teste de correlação, um grau moderado para excelente de associação.

—> Nota Média por Número de Pessoas que Votaram

cor.test(Goodreads_best1500books$avg_rating,Goodreads_best1500books$no_of_ppl_voted,method = "spearman",conf.level = 0.95)

## Warning in cor.test.default(Goodreads_best1500books$avg_rating,
## Goodreads_best1500books$no_of_ppl_voted, : Cannot compute exact p-value with
## ties

## 
##  Spearman's rank correlation rho
## 
## data:  Goodreads_best1500books$avg_rating and Goodreads_best1500books$no_of_ppl_voted
## S = 531413159, p-value = 0.9475
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##          rho 
## -0.001718599

P valor > alpha Com essee resultado, que não rejeeita H0 ve-se que as variáveis score e nota média NÃO tem correlação.

Confirmando o que foi mostrado no diagrama de dispersão e no teste de correlação.

Qualitativa X Quantitativa

A seguir foi conferido se as variáveis quantitativas score e nota média seguem uma distribuição normal.

Foram usados as seguintes hipóteses para as duas:

H0 : OS dados seguem uma distribuiçao normal

H1: Os dados nao seguem uma disttribuição normmal

ALPHA = 0,05

SE P VALOR < ALPHA REJEITA H0

SE P VALOR > ALPHA NÃO REJEITA HA

—> Score

modelo1 <- aov(score~book_genre,data = Goodreads_best1500books)


residuos1 <- residuals(modelo1)
shapiro.test(residuos1)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos1
## W = 0.28059, p-value < 0.00000000000000022

P valor < alpha

Os dados nãos seguem uma distribuiçao normal

Pressuposto 1 de normalidade não atendido.

—> Nota Média

modelo2 <- aov(avg_rating~book_genre,data = Goodreads_best1500books)


residuos2 <- residuals(modelo2)

shapiro.test(residuos2)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos2
## W = 0.99504, p-value = 0.00008777

Pvalor < alpha

Os dados nãos seguem uma distribuiçao normal

Pressuposto 1 de normalidade não atendido.

Como as duas variáveis não seguem uma distribuição normal, será usado o teste de Kruskal-Wallis

—> Score por Gênero Literário

H0: os gêneros literários sao amostrados de populacoes com distribuição de score iguais.

H1: pelo menos um dos gêneros literários teem distribuiçao de score diferente.

Alpha 0,05

SE P VALOR < ALPHA REJEEITA H0

SE P VALOR > ALPHA NÃO REJEITA H0

kruskal.test(book_genre~score, data = Goodreads_best1500books)

## 
##  Kruskal-Wallis rank sum test
## 
## data:  book_genre by score
## Kruskal-Wallis chi-squared = 916.79, df = 939, p-value = 0.6919

Pvalor > alpha

P valor é maior que alpha, não rejeitando H0,portanto os gêneros literários tem a mesma distribuição de score.

—> Nota média por Gênero

H0: Os gêneros literários são amostrados de populações com distribuição de nota média iguais.

H1: Pelo menos um dos gêneros literários teem distribuiçao de nota média diferente

Alpha 0,05

SE P VALOR < ALPHA REJEEITA H0

SE P VALOR > ALPHA NÃO REJEITA H0

kruskal.test(book_genre~avg_rating, data = Goodreads_best1500books)

## 
##  Kruskal-Wallis rank sum test
## 
## data:  book_genre by avg_rating
## Kruskal-Wallis chi-squared = 166.46, df = 155, p-value = 0.2504

Pvalor > alpha

P valor é maior que alpha, não rejeitando H0,portanto os gêneros literários tem a mesma distribuição de nota média.

5.Conclusão

Com a análise dos resultados obtidos ao longo do relatorio, vê-se que os livros da lista seguem alguns padrões, como serem a maior parte na lingua inglesa,isso pode acontecer por o goodreads ser uma plataforma internacional, que tem origem norte-americana, mas também pelo fácil acesso a livros internacionais traduzidos pelo mundo, como exemplo, nota-se que as editoras brasileiras acabam publicando mais livros estrangeiros do que nacionais por ter um público já formado.

É também, bem evidente, que o gênero mais encontrado na lista, com quase 400 livros, são de ficção, o que pode englobar diversos subgêneros.

Pode-se ver também, que os livros dessa lista, em sua maior parte são de 2001 a 2010, o que pode ser justificado pelo tempo que foram publicados, não cairam no esquecimento e mesmo hoje ainda são lidos e apreciados.

Já dentro dos gêneros literários,é visto uma simetria, uma mesma distribuição de score e nota média dentro dos gêneros.

Passando para análise do score com as demais variáveis, inesperamente o score não tem relação com a nota média mas por outro lado tem relação com o numéro total de notas dadas pelos leitores da plataforma, o que significa dizer que quanto mais notas o livros recebe, maior é o score desse livro na lista e consequentemente mais ao topo da lista se encontra.

Conclui-se, que os livros da lista seguem alguns padrões que foram destacados pelos gráficos e testes feitos em cima da base de dados, mas também foi visto que certas variáveis não tem nenhuma relação.

6. Referências Bibliográficas

Banco de dados usado: https://www.kaggle.com/alhanoofat/goodreadsbest1500books

Lista atualizada dos melhores livros do século XXI no goodreads : https://www.goodreads.com/list/show/7.Best_Books_of_the_21st_Century

Relatório Final de Estatística

Tamyris Rodrigues Corrêa - 20211520036

02/02/2022

1. Introdução

2. Objetivo

2.1 Hipóteses de Pesquisa

3. Metodologia

4. Análise de Resultados

4.1 Gráficos de Barras:

Gênero Literário dos Livros

Idioma original dos Livros

Gênero literario por Idioma original dos Livros

4.2 Boxplot,Média e Desvio Padrão:

Score por Gênero Literario dos Livros

Nota Média por Gênero Literario dos Livros

4.3 Histograma:

Ano de Publicação dos Livros

4.4 Diagramas de Dispersão:

Score por Nota Média dos Livros

Score por número total de notas dadas pelos leitores

Nota Média por número de pessoas que votaram na lista

4.5 Matriz de Correlação:

4.6 Testes de Hipóteses:

Qualitativa X Qualitativa

Teste de Normalidade das variáveis quantitativas

Quantitativa X Quantitaviva

Qualitativa X Quantitativa

5.Conclusão

6. Referências Bibliográficas