Goodreads é um site que foi criado em 2006 com o intuito de ser uma rede social para leitores e escritores, onde o usuário pode colocar o que está lendo no momento, adicionar o que vai ler, e o que já leu, além de dar nota e fazer resenhas sobre esses livros podendo compartilhar suas leituras com amigos na rede e também ver o que outros leitores estão lendo, pegando recomendações e trocando experiencia. O goodreads foi comprado pela amazon em 2013, quando ganhou mais notoriedade, hoje tendo mais de 125 milhões de usuários por todo o mundo.
Além de os leitores poderem compartilhar suas experiências literárias, o site possui uma comunidade de interação, onde tem grupos, discussões, quizzes, recomendações personalizadas, notícias exclusivas e listas de livros que são votados pelos próprios usuários e mudam constantemente, desde de listas de melhores livros de certo gênero ate listas de livros de autores específicos, sendo o trabalho a seguir tendo sido baseado em uma dessas listas disponíveis pra votação no goodreads.
O objetivo desse trabalho será analisar e interpretar os dados para tentar identificar as caracteristicas que um livro dentro da lista de Best Books of the 21st Century tem, usando as variáveis disponiveis dentro do banco de dados
- Fantasia é o gênero literário que mais se destaca entre os livros da lista.
- A grande maioria dos livros da lista teem como idioma original o inglês
- Os gêneros literários tem mesma distribuição dentro da variável score e da média de notas dos livros.
- Os livros com maior score são os que tem maiores notas(1 a 5).
- Livros com maior score são os que tem maaior número total de notas dadas pelos leitores.
- Na lista tem mais livros da primeira década do século XXI na lista do que de 2011 em diante.
- A nota média dos livros não tem nenhuma associação com o número de pessoas que votaram na lista.
Nesse estudo foi utilizada uma base de dados referente a aproximadamente 1500 livros e 11 variaveis, retirados do goodreads da lista “Best Books of the 21st Century”,onde reune os Melhores Livros do Século XXI(janeiro de 2001 até a atualidade), que possui um sistema de votação, onde os usuários votam em seus livros preferidos,e qualquer livro pode ser adicionado a lista, contando que tenha sido publicado dentro do século XXI, atualmente a lista possui mais de 21 mil votos, porem a base de dados trabalhada é de 20/11/2019, publicada por Alhanoof Al Taisan postada em uma única versão, portanto os dados não estão atualizados, sendo de um período anterior a 2022.
O Criador da base de dados fez o processo usando BeautifulSoup.
O banco de dados está classificado conforme a lista do goodreads, do mais votado (id - 0, score: 392793), até o menos votado - (id 1499, score : 233), não tendo o número total de itens que a lista possui,no total a lista contem atualmente, 9.147 livros,porém nesse relatorio irei trabalhar apenas com os primeiros 1500 livros do banco de dados.
A base de dados é apresentada logo a seguir na integra:
library(dplyr)##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(readr)
library(corrplot)## corrplot 0.92 loaded
library(flextable)
Goodreads_best1500books <- read_csv("Goodreads_best1500books.csv",
col_types = cols(avg_rating = col_number(),
no_of_raters = col_number()))## New names:
## * `` -> ...1
## Warning: One or more parsing issues, see `problems()` for details
Goodreads_best1500books$edition_language[Goodreads_best1500books$edition_language == "Fantasy"] <- "English"
options(scipen = 999)
library(DT)
datatable(Goodreads_best1500books)Também sendo mostrado a descrição de todas as variáveis presentes na base dados, para uma melhor compreensão do trabalho, é apresentado um dicionário dos dados:
Variáveis <- c("Id","book_name","author_name","book_genre","year_published","edition_language","avg_rating","no_of_raters","score","no_of_ppl_voted","book_url")
Significado <- c("id do livro, indo de 0 a 1499","Título do livro","Nome do Autor/Autora","Gêreno literario do Livro","Ano de publicação","Idioma em que o livro foi escrito","Nota/Avaliação media de todas as notas dadas pelos usuarios do Goodreads, nota de 1 a 5","Número de leitores que avaliaram/deram nota para o livro","Pontuação total do livro dentro da lista, que leva em consideração varios fatores, como o número de pessoas que votaram e quão alto isso deixa eles no rank, quantas pessoas botaram o livro como primeiro de sua lista ou ultimo influencia no score","Número de pessoas que votaram no livro para estar na lista","Pagina do Livro dentro do site")
Dicionario_de_dados <- data.frame(Variáveis,Significado)
datatable(Dicionario_de_dados)No estudo foram usados, graficos de barras,para as variáveis :idioma e gênero do livro.
Histograma da variável ano de publicação
Boxplot de cruzamento de variavel qualitativa por quantitativa, sendo as variáveis usadas nesses graficos : gênero literário,score e nota média dos livros.
diagramas de dispersão, para o cruzamento das variáveis quantitativas :ano de publicação, nota média, número total de notas dadas pelos leitores, score e número total de pessoas que votaram na lista.
Também foi feito o teste de correlação e uma matriz de correlação entre as mesmas variáveis quantitativas e os testes de hipóteses com as variáveis escolhidas.
tabela_generol <- table(Goodreads_best1500books$book_genre)
coridioma <- c("#d62222","#e89015","#e3e329","#7be629","#338a46","#40dbbc","#23bdd9","#1a3cb8","#905ae0","#b544bd","#a12874")
par(cex=0.5)
a <- barplot(tabela_generol,col=c("#3c99b0"),main = "Gênero Literario do Livro",
las = 2,
space = c(0.4),
ylim = c(0,400))
text(a,tabela_generol + 6,labels = tabela_generol)A partir do gráfico de barras acima, pode-se ver com clareza a discrepancia entre os gêneros, é visto que o gênero que se destaca é Ficção, seguido de Fantasia, Jovem adulto( young adult) e não ficção. Além disso, dos 49 gêneros apresentados no gráfico, 13 deles, só tem um livro na lista.
tabela_idioma <- table(Goodreads_best1500books$edition_language)
par(cex=0.6)
a <- barplot(tabela_idioma,col=c(coridioma),main = "Idioma original dos livros",
las = 2,
space = c(0.4),
legend.text = rownames(tabela_idioma),
args.legend = list(x= "topright"),
ylim = c(0,1600))
text(a,tabela_idioma + 45,labels = tabela_idioma)No gráfico nota-se sem dificuldade que a maioria dos livros são da lingua inglesa, sendo 1460 livros da lista.
tabela_ge_idioma<- Goodreads_best1500books %>% select(edition_language,book_genre) %>% table()
par(cex=0.6)
grafico <- tabela_ge_idioma %>% barplot(beside=F,
col=c(coridioma),
main= "gênero por idioma do livro",
legend = rownames(tabela_ge_idioma),
las=2,
args.legend = list(x = "topright"))No gráfico acima, novamente é visto como o idioma inglês está em grande maioria na lista e dentro dos gêneros literários, como era de se esperar.
par(cex=0.7)
boxplot(score~book_genre, data = Goodreads_best1500books,
col=c("#76c4ba","#0a8c7c"),
horizontal = F,
las = 2,
space = c(1),
main= "Boxplot - Score por Gênero Literário")Goodreads_best1500books<-na.omit(Goodreads_best1500books)
Goodreads_best1500books %>% select(score,book_genre) %>%
group_by(book_genre) %>%
summarise(MEDIA=round(mean(score),2),DESVIO_PADRAO=round(sd(score),2)) %>%
flextable() %>% theme_zebra()book_genre | MEDIA | DESVIO_PADRAO |
Adventure | 888.50 | 149.20 |
Art | 380.50 | 183.14 |
Autobiography | 1,655.33 | 2,179.33 |
Biography | 577.67 | 438.73 |
Business | 768.00 | |
Childrens | 341.33 | 54.85 |
Christian | 637.80 | 334.01 |
Christian Fiction | 992.00 | |
Classics | 497.00 | |
Cultural | 506.00 | 330.98 |
Dark | 499.00 | |
Environment | 276.00 | |
Erotica | 299.00 | |
Fantasy | 6,182.04 | 31,138.79 |
Fiction | 9,026.41 | 27,070.17 |
Food and Drink | 1,010.00 | |
Historical | 5,551.75 | 24,673.16 |
History | 1,589.07 | 3,352.00 |
Horror | 1,714.27 | 2,197.07 |
Humor | 2,322.00 | 4,735.57 |
LGBT | 308.50 | 12.02 |
Music | 555.67 | 429.65 |
Mystery | 912.32 | 1,190.12 |
New Adult | 645.00 | 70.71 |
Nonfiction | 5,047.41 | 10,360.26 |
Novels | 600.00 | |
Paranormal | 484.90 | 367.26 |
Parenting | 396.50 | 142.13 |
Philosophy | 278.67 | 30.89 |
Poetry | 945.60 | 522.68 |
Politics | 396.00 | 142.39 |
Psychology | 903.50 | 1,065.55 |
Realistic Fiction | 622.50 | 40.31 |
Religion | 943.75 | 1,256.37 |
Romance | 1,137.54 | 1,472.42 |
Science | 291.00 | 1.41 |
Science Fiction | 1,058.10 | 2,298.17 |
Self Help | 294.00 | |
Sequential Art | 2,523.47 | 7,246.62 |
Short Stories | 565.73 | 333.75 |
Spirituality | 392.00 | |
Suspense | 1,697.00 | |
Thriller | 527.36 | 305.88 |
Travel | 2,253.33 | 3,148.73 |
unknown | 445.53 | 178.94 |
War | 1,288.00 | |
Womens Fiction | 1,200.33 | 991.20 |
Young Adult | 7,629.11 | 29,077.51 |
par(cex=0.5)
boxplot(score~book_genre, data = Goodreads_best1500books,
col=c("#76c4ba","#0a8c7c"),
horizontal = F,
las = 2,
ylim = c(0,10000),
space = c(1),
main= "Boxplot - Score por Gênero Literário")Como o score chega na casa dos 400.000 os dados não são bem visualizados, então foi diminuido para 10.000 para melhor visualização dos dados.
No gráfico os gêneros literarios que mais possuem livros na lista,são os que tem maior mediana, porém também são os que tem maior desvio padrão, possuindo também mais outliers superiores.
Os gêneros literários que aparecem sem desvio padrão tem apenas um livro na lista.
par(cex=0.5)
boxplot(avg_rating~book_genre, data = Goodreads_best1500books,
col=c("purple","blue"),
horizontal = F,
las = 2,
main= "gráfico 1 - Km/l por Tipo de Marcha")Goodreads_best1500books<-na.omit(Goodreads_best1500books)
Goodreads_best1500books %>% select(avg_rating,book_genre) %>%
group_by(book_genre) %>%
summarise(MEDIA=round(mean(avg_rating),2),DESVIO_PADRAO=round(sd(avg_rating),2)) %>%
flextable() %>% theme_zebra()book_genre | MEDIA | DESVIO_PADRAO |
Adventure | 4.46 | 0.18 |
Art | 4.00 | 0.32 |
Autobiography | 3.89 | 0.16 |
Biography | 4.18 | 0.11 |
Business | 3.70 | |
Childrens | 4.20 | 0.25 |
Christian | 4.07 | 0.20 |
Christian Fiction | 4.42 | |
Classics | 4.59 | |
Cultural | 3.89 | 0.04 |
Dark | 3.85 | |
Environment | 4.10 | |
Erotica | 3.93 | |
Fantasy | 4.15 | 0.26 |
Fiction | 3.83 | 0.27 |
Food and Drink | 3.90 | |
Historical | 4.06 | 0.24 |
History | 4.09 | 0.16 |
Horror | 3.95 | 0.21 |
Humor | 4.13 | 0.17 |
LGBT | 4.19 | 0.33 |
Music | 3.98 | 0.14 |
Mystery | 4.03 | 0.21 |
New Adult | 3.67 | 0.74 |
Nonfiction | 4.03 | 0.25 |
Novels | 3.79 | |
Paranormal | 3.93 | 0.08 |
Parenting | 4.11 | 0.42 |
Philosophy | 4.31 | 0.34 |
Poetry | 4.19 | 0.37 |
Politics | 4.04 | 0.09 |
Psychology | 4.01 | 0.44 |
Realistic Fiction | 4.18 | 0.29 |
Religion | 4.20 | 0.22 |
Romance | 4.11 | 0.22 |
Science | 4.14 | 0.02 |
Science Fiction | 4.02 | 0.26 |
Self Help | 4.47 | |
Sequential Art | 4.19 | 0.24 |
Short Stories | 3.95 | 0.30 |
Spirituality | 4.76 | |
Suspense | 4.06 | |
Thriller | 4.12 | 0.20 |
Travel | 4.09 | 0.21 |
unknown | 4.56 | 0.32 |
War | 4.01 | |
Womens Fiction | 3.77 | 0.13 |
Young Adult | 3.99 | 0.22 |
No gráfico de nota média por gênero, ve-se uma distribuição simetrica entre os dados, tendo um desvio padrão pequeno, como é visto na tabela, tendo outliers superiores em certos gêneros e inferiores em outros, tendo ainda os gêneros que possuem ambos, outliers superiores e inferiores.
Como na tabela anterior, os gêneros que não aparecem desvio padrão possuem apenas um livro na lista.
hist(Goodreads_best1500books$year_published,col = "#c288d1",main = "Histograma - Ano de Publicação dos Livros",
xlab = "Ano", ylab="Frequência",
labels = TRUE,
density = 60,
las = 2,
border = "#875575",
ylim = c(0,400),
xlim = c(2000,2020))Pode-se ver que os dados tem uma concentração dos dados no lado esquerdo, sendo o gráfico assimetrico a direito, os dados estão concentrados entre os anos de 2004 a 2012, porém tem uma concentração maior de livros até 2010.
Goodreads_best1500books<-na.omit(Goodreads_best1500books)
par(bg="#cfe3e0")
par(cex=1)
plot(Goodreads_best1500books$score,Goodreads_best1500books$avg_rating, pch=21,col="#60689e",
main = "Diagrama de dispersão - Score por nota média dos livros",
ylim = c (2.5,5),
ylab = "Nota Media do Livro",
xlab = "Score")
abline(lsfit(Goodreads_best1500books$score,Goodreads_best1500books$avg_rating),col="darkred")cor(Goodreads_best1500books$score,Goodreads_best1500books$avg_rating)## [1] 0.09328209
Pelo gráfico, é evidenciado uma correlação positiva fraca, onde a linha é crescente, e com o teste de correlação, que é mais precisa destaca uma correlação quase bem abaixo, chegando a 0,09.
Goodreads_best1500books<-na.omit(Goodreads_best1500books)
par(bg="#cfe3e0")
par(cex=0.5)
plot(Goodreads_best1500books$score,Goodreads_best1500books$no_of_raters, pch=16,col="#60689e",
main = "Diagrama de dispersão - Score por numero total de avaliações de um livro",
ylab = "Número total de notas de um livro",
xlab = "Score")
abline(lsfit(Goodreads_best1500books$score,Goodreads_best1500books$no_of_raters),col="darkred")cor(Goodreads_best1500books$score,Goodreads_best1500books$no_of_raters)## [1] 0.7623406
Pelo gráfico acima, é visto uma correlação linear positiva forte, onde a linha é crescente, o que é confirmado pelo teste de correlação, que mostra uma correlação de 0,76.
Goodreads_best1500books<-na.omit(Goodreads_best1500books)
par(bg="#cfe3e0")
par(cex=0.5)
plot(Goodreads_best1500books$no_of_ppl_voted,Goodreads_best1500books$avg_rating, pch=21,col="#60689e",
main = "Diagrama de dispersão - Score por numero total de avaliações de um livro",
ylab = "media de avaliaçoes",
xlab = "número de pessoas que votaram no livro para estar na lista")
abline(lsfit(Goodreads_best1500books$no_of_ppl_voted,Goodreads_best1500books$avg_rating),col="darkred")cor(Goodreads_best1500books$no_of_ppl_voted,Goodreads_best1500books$avg_rating)## [1] 0.09242055
O gráfico mostra uma correlação linear positiva fraca das variáveis, onde existe uma linha levemente crescente, o teste de correlação confirma essa baixa associação entre as variáveis, sendo a correlação de 0,09
Goodreads_best1500books<-na.omit(Goodreads_best1500books)
selecao<- c("year_published","avg_rating","no_of_raters","score","no_of_ppl_voted")
correlacao_books <- cor(Goodreads_best1500books[,selecao])
library(corrplot)
corrplot(correlacao_books,addCoef.col=TRUE,number.cex=0.7)A matriz de correlação corrobora o que foi apresentado nos diagramas de dispersão.
A variável Score tem correlação com as variáveis número total de notas e número total de pessoas que votaram na lista.
Além disso, há uma correlação entre as variáveis, ano de publicação e a média de notas.
Os testes foram iniciados, testando a associação entre as variáveis qualitativas: gênero e ano de publicaçao.
primeiro foi visto se as variáveis atendiam o pressuposto do teste qui-quadrado, foram usadas as seguintes hipóteses:
H0:Não há associacao entre as variaveis genero e idioma
H1:Há associacao entre as variaveis genero e idioma
Usando um alpha = 0,05
se p valor < alpha rejeito H0
se p valor > alpha nãop rejeito H0
genero_idioma <- table(Goodreads_best1500books$book_genre,Goodreads_best1500books$edition_language)
TQQ <- chisq.test(genero_idioma)## Warning in chisq.test(genero_idioma): Chi-squared approximation may be incorrect
TQQ$expected##
## Arabic English Finnish French
## Adventure 0.0013596193 1.949694 0.0013596193 0.006798097
## Art 0.0013596193 1.949694 0.0013596193 0.006798097
## Autobiography 0.0061182869 8.773623 0.0061182869 0.030591434
## Biography 0.0061182869 8.773623 0.0061182869 0.030591434
## Business 0.0006798097 0.974847 0.0006798097 0.003399048
## Childrens 0.0020394290 2.924541 0.0020394290 0.010197145
## Christian 0.0033990483 4.874235 0.0033990483 0.016995241
## Christian Fiction 0.0006798097 0.974847 0.0006798097 0.003399048
## Classics 0.0006798097 0.974847 0.0006798097 0.003399048
## Cultural 0.0020394290 2.924541 0.0020394290 0.010197145
## Dark 0.0006798097 0.974847 0.0006798097 0.003399048
## Environment 0.0006798097 0.974847 0.0006798097 0.003399048
## Erotica 0.0006798097 0.974847 0.0006798097 0.003399048
## Fantasy 0.1821889871 261.259007 0.1821889871 0.910944935
## Fiction 0.2549286200 365.567641 0.2549286200 1.274643100
## Food and Drink 0.0006798097 0.974847 0.0006798097 0.003399048
## Historical 0.0740992522 106.258328 0.0740992522 0.370496261
## History 0.0183548606 26.320870 0.0183548606 0.091774303
## Horror 0.0224337186 32.169952 0.0224337186 0.112168593
## Humor 0.0095173351 13.647859 0.0095173351 0.047586676
## LGBT 0.0013596193 1.949694 0.0013596193 0.006798097
## Music 0.0040788579 5.849082 0.0040788579 0.020394290
## Mystery 0.0401087695 57.515976 0.0401087695 0.200543848
## New Adult 0.0013596193 1.949694 0.0013596193 0.006798097
## Nonfiction 0.0781781101 112.107410 0.0781781101 0.390890551
## Novels 0.0006798097 0.974847 0.0006798097 0.003399048
## Paranormal 0.0067980965 9.748470 0.0067980965 0.033990483
## Parenting 0.0013596193 1.949694 0.0013596193 0.006798097
## Philosophy 0.0020394290 2.924541 0.0020394290 0.010197145
## Poetry 0.0033990483 4.874235 0.0033990483 0.016995241
## Politics 0.0020394290 2.924541 0.0020394290 0.010197145
## Psychology 0.0027192386 3.899388 0.0027192386 0.013596193
## Realistic Fiction 0.0013596193 1.949694 0.0013596193 0.006798097
## Religion 0.0027192386 3.899388 0.0027192386 0.013596193
## Romance 0.0428280082 61.415364 0.0428280082 0.214140041
## Science 0.0013596193 1.949694 0.0013596193 0.006798097
## Science Fiction 0.0394289599 56.541128 0.0394289599 0.197144799
## Self Help 0.0006798097 0.974847 0.0006798097 0.003399048
## Sequential Art 0.0115567641 16.572400 0.0115567641 0.057783821
## Short Stories 0.0074779062 10.723317 0.0074779062 0.037389531
## Spirituality 0.0006798097 0.974847 0.0006798097 0.003399048
## Suspense 0.0006798097 0.974847 0.0006798097 0.003399048
## Thriller 0.0169952413 24.371176 0.0169952413 0.084976207
## Travel 0.0020394290 2.924541 0.0020394290 0.010197145
## unknown 0.0115567641 16.572400 0.0115567641 0.057783821
## War 0.0006798097 0.974847 0.0006798097 0.003399048
## Womens Fiction 0.0081577158 11.698165 0.0081577158 0.040788579
## Young Adult 0.1189666893 170.598232 0.1189666893 0.594833447
##
## German Japanese Persian Portuguese
## Adventure 0.004078858 0.0013596193 0.002719239 0.002719239
## Art 0.004078858 0.0013596193 0.002719239 0.002719239
## Autobiography 0.018354861 0.0061182869 0.012236574 0.012236574
## Biography 0.018354861 0.0061182869 0.012236574 0.012236574
## Business 0.002039429 0.0006798097 0.001359619 0.001359619
## Childrens 0.006118287 0.0020394290 0.004078858 0.004078858
## Christian 0.010197145 0.0033990483 0.006798097 0.006798097
## Christian Fiction 0.002039429 0.0006798097 0.001359619 0.001359619
## Classics 0.002039429 0.0006798097 0.001359619 0.001359619
## Cultural 0.006118287 0.0020394290 0.004078858 0.004078858
## Dark 0.002039429 0.0006798097 0.001359619 0.001359619
## Environment 0.002039429 0.0006798097 0.001359619 0.001359619
## Erotica 0.002039429 0.0006798097 0.001359619 0.001359619
## Fantasy 0.546566961 0.1821889871 0.364377974 0.364377974
## Fiction 0.764785860 0.2549286200 0.509857240 0.509857240
## Food and Drink 0.002039429 0.0006798097 0.001359619 0.001359619
## Historical 0.222297757 0.0740992522 0.148198504 0.148198504
## History 0.055064582 0.0183548606 0.036709721 0.036709721
## Horror 0.067301156 0.0224337186 0.044867437 0.044867437
## Humor 0.028552005 0.0095173351 0.019034670 0.019034670
## LGBT 0.004078858 0.0013596193 0.002719239 0.002719239
## Music 0.012236574 0.0040788579 0.008157716 0.008157716
## Mystery 0.120326309 0.0401087695 0.080217539 0.080217539
## New Adult 0.004078858 0.0013596193 0.002719239 0.002719239
## Nonfiction 0.234534330 0.0781781101 0.156356220 0.156356220
## Novels 0.002039429 0.0006798097 0.001359619 0.001359619
## Paranormal 0.020394290 0.0067980965 0.013596193 0.013596193
## Parenting 0.004078858 0.0013596193 0.002719239 0.002719239
## Philosophy 0.006118287 0.0020394290 0.004078858 0.004078858
## Poetry 0.010197145 0.0033990483 0.006798097 0.006798097
## Politics 0.006118287 0.0020394290 0.004078858 0.004078858
## Psychology 0.008157716 0.0027192386 0.005438477 0.005438477
## Realistic Fiction 0.004078858 0.0013596193 0.002719239 0.002719239
## Religion 0.008157716 0.0027192386 0.005438477 0.005438477
## Romance 0.128484024 0.0428280082 0.085656016 0.085656016
## Science 0.004078858 0.0013596193 0.002719239 0.002719239
## Science Fiction 0.118286880 0.0394289599 0.078857920 0.078857920
## Self Help 0.002039429 0.0006798097 0.001359619 0.001359619
## Sequential Art 0.034670292 0.0115567641 0.023113528 0.023113528
## Short Stories 0.022433719 0.0074779062 0.014955812 0.014955812
## Spirituality 0.002039429 0.0006798097 0.001359619 0.001359619
## Suspense 0.002039429 0.0006798097 0.001359619 0.001359619
## Thriller 0.050985724 0.0169952413 0.033990483 0.033990483
## Travel 0.006118287 0.0020394290 0.004078858 0.004078858
## unknown 0.034670292 0.0115567641 0.023113528 0.023113528
## War 0.002039429 0.0006798097 0.001359619 0.001359619
## Womens Fiction 0.024473148 0.0081577158 0.016315432 0.016315432
## Young Adult 0.356900068 0.1189666893 0.237933379 0.237933379
##
## Spanish unknown
## Adventure 0.0013596193 0.02855201
## Art 0.0013596193 0.02855201
## Autobiography 0.0061182869 0.12848402
## Biography 0.0061182869 0.12848402
## Business 0.0006798097 0.01427600
## Childrens 0.0020394290 0.04282801
## Christian 0.0033990483 0.07138001
## Christian Fiction 0.0006798097 0.01427600
## Classics 0.0006798097 0.01427600
## Cultural 0.0020394290 0.04282801
## Dark 0.0006798097 0.01427600
## Environment 0.0006798097 0.01427600
## Erotica 0.0006798097 0.01427600
## Fantasy 0.1821889871 3.82596873
## Fiction 0.2549286200 5.35350102
## Food and Drink 0.0006798097 0.01427600
## Historical 0.0740992522 1.55608430
## History 0.0183548606 0.38545207
## Horror 0.0224337186 0.47110809
## Humor 0.0095173351 0.19986404
## LGBT 0.0013596193 0.02855201
## Music 0.0040788579 0.08565602
## Mystery 0.0401087695 0.84228416
## New Adult 0.0013596193 0.02855201
## Nonfiction 0.0781781101 1.64174031
## Novels 0.0006798097 0.01427600
## Paranormal 0.0067980965 0.14276003
## Parenting 0.0013596193 0.02855201
## Philosophy 0.0020394290 0.04282801
## Poetry 0.0033990483 0.07138001
## Politics 0.0020394290 0.04282801
## Psychology 0.0027192386 0.05710401
## Realistic Fiction 0.0013596193 0.02855201
## Religion 0.0027192386 0.05710401
## Romance 0.0428280082 0.89938817
## Science 0.0013596193 0.02855201
## Science Fiction 0.0394289599 0.82800816
## Self Help 0.0006798097 0.01427600
## Sequential Art 0.0115567641 0.24269205
## Short Stories 0.0074779062 0.15703603
## Spirituality 0.0006798097 0.01427600
## Suspense 0.0006798097 0.01427600
## Thriller 0.0169952413 0.35690007
## Travel 0.0020394290 0.04282801
## unknown 0.0115567641 0.24269205
## War 0.0006798097 0.01427600
## Womens Fiction 0.0081577158 0.17131203
## Young Adult 0.1189666893 2.49830048
Pressuposto não atendido, observa-se valores menores que 5.
Então não será usado o teste qui-quadrado.
Usaremos então o teste de fisher com as mesmas hipoteses.
H0: Não há associacao entre as variaveis genero e idioma
H1: Há associacao entre as variaveis genero e idioma
Alpha = 0,05
Se p valor < alpha rejeito H0
Se p valor > alpha nãop rejeito H0
Fisher <- fisher.test(genero_idioma, simulate.p.value = TRUE,B = 1e6)
Fisher##
## Fisher's Exact Test for Count Data with simulated p-value (based on
## 1000000 replicates)
##
## data: genero_idioma
## p-value = 0.02659
## alternative hypothesis: two.sided
P valor < alpha
Com esse resultado H0 é rejeitada, portanto há associação entre as variaveis gênero e idioma dos livros listados.
Em seguida foram pegas as variáveis quantitativas usadas e foi conferida sua normalidade.
Foram usadas as mesmas hipóteses e o mesmo nível de significância para todas as variáveis
H0: Os dados seguem uma distribuição normal
H1: Os dados não seguem uma distribuição normal
Alpha 0,05
Se p valor < alpha rejeito H0
Se p valor > alpha NÃO rejeito H0
—> Score
shapiro.test(Goodreads_best1500books$score)##
## Shapiro-Wilk normality test
##
## data: Goodreads_best1500books$score
## W = 0.21788, p-value < 0.00000000000000022
P valor < alpha
A variável score não segue uma distribuição normal
—> Nota Média
shapiro.test(Goodreads_best1500books$avg_rating)##
## Shapiro-Wilk normality test
##
## data: Goodreads_best1500books$avg_rating
## W = 0.99687, p-value = 0.004754
P valor < alpha
A variável nota média não segue uma distribuição normal
—> Número total de Notas
shapiro.test(Goodreads_best1500books$no_of_raters)##
## Shapiro-Wilk normality test
##
## data: Goodreads_best1500books$no_of_raters
## W = 0.39755, p-value < 0.00000000000000022
P valor < alpha
A variável número total de notas não segue uma distribuição normal.
—> Número total de pessoas que votaram na lista
shapiro.test(Goodreads_best1500books$no_of_ppl_voted)##
## Shapiro-Wilk normality test
##
## data: Goodreads_best1500books$no_of_ppl_voted
## W = 0.22738, p-value < 0.00000000000000022
P valor < alpha
A variável Número total de pessoas que votaram na lista não segue uma distribuição normal.
Conclui-se que nenhuma das variáveis quantitativas usadas seguem uma distribuição normal.
Então,a seguir será usado o teste de spearman para todas as cinco variáveis quantitativas.
As hipóteses a seguir serão usadas para todos os cruzamentos de variáveis quantitativas
H0: rho = 0
H1: rho != 0
Alpha = 0,05
Se p valor < alpha rejeito H0
Se p valor > alpha não rejeito H0
—> Score Por Nota Média
cor.test(Goodreads_best1500books$score,Goodreads_best1500books$avg_rating,method = "spearman",conf.level = 0.95)## Warning in cor.test.default(Goodreads_best1500books$score,
## Goodreads_best1500books$avg_rating, : Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: Goodreads_best1500books$score and Goodreads_best1500books$avg_rating
## S = 524364383, p-value = 0.6575
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.01156841
P valor > alpha
Com esse resultado, que não rejeita H0 vê-se que as variáveis score e nota media não tem correlação.
Confirmando o que foi mostrado no diagrama de dispersão e no teste de correlação.
—> score por Número Total de Notas
cor.test(Goodreads_best1500books$score,Goodreads_best1500books$no_of_raters,method = "spearman",conf.level = 0.95)## Warning in cor.test.default(Goodreads_best1500books$score,
## Goodreads_best1500books$no_of_raters, : Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: Goodreads_best1500books$score and Goodreads_best1500books$no_of_raters
## S = 250884560, p-value < 0.00000000000000022
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.5270803
P valor < alpha
Com essee resultado, que rejeita H0 ve-se que as variáveis score e número total de avaliaçoes tem correlação.
Confirmando o que foi mostrado no diagrama de dispersão e no teste de correlação, um grau moderado para excelente de associação.
—> Nota Média por Número de Pessoas que Votaram
cor.test(Goodreads_best1500books$avg_rating,Goodreads_best1500books$no_of_ppl_voted,method = "spearman",conf.level = 0.95)## Warning in cor.test.default(Goodreads_best1500books$avg_rating,
## Goodreads_best1500books$no_of_ppl_voted, : Cannot compute exact p-value with
## ties
##
## Spearman's rank correlation rho
##
## data: Goodreads_best1500books$avg_rating and Goodreads_best1500books$no_of_ppl_voted
## S = 531413159, p-value = 0.9475
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.001718599
P valor > alpha Com essee resultado, que não rejeeita H0 ve-se que as variáveis score e nota média NÃO tem correlação.
Confirmando o que foi mostrado no diagrama de dispersão e no teste de correlação.
A seguir foi conferido se as variáveis quantitativas score e nota média seguem uma distribuição normal.
Foram usados as seguintes hipóteses para as duas:
H0 : OS dados seguem uma distribuiçao normal
H1: Os dados nao seguem uma disttribuição normmal
ALPHA = 0,05
SE P VALOR < ALPHA REJEITA H0
SE P VALOR > ALPHA NÃO REJEITA HA
—> Score
modelo1 <- aov(score~book_genre,data = Goodreads_best1500books)
residuos1 <- residuals(modelo1)
shapiro.test(residuos1)##
## Shapiro-Wilk normality test
##
## data: residuos1
## W = 0.28059, p-value < 0.00000000000000022
P valor < alpha
Os dados nãos seguem uma distribuiçao normal
Pressuposto 1 de normalidade não atendido.
—> Nota Média
modelo2 <- aov(avg_rating~book_genre,data = Goodreads_best1500books)
residuos2 <- residuals(modelo2)
shapiro.test(residuos2)##
## Shapiro-Wilk normality test
##
## data: residuos2
## W = 0.99504, p-value = 0.00008777
Pvalor < alpha
Os dados nãos seguem uma distribuiçao normal
Pressuposto 1 de normalidade não atendido.
Como as duas variáveis não seguem uma distribuição normal, será usado o teste de Kruskal-Wallis
—> Score por Gênero Literário
H0: os gêneros literários sao amostrados de populacoes com distribuição de score iguais.
H1: pelo menos um dos gêneros literários teem distribuiçao de score diferente.
Alpha 0,05
SE P VALOR < ALPHA REJEEITA H0
SE P VALOR > ALPHA NÃO REJEITA H0
kruskal.test(book_genre~score, data = Goodreads_best1500books)##
## Kruskal-Wallis rank sum test
##
## data: book_genre by score
## Kruskal-Wallis chi-squared = 916.79, df = 939, p-value = 0.6919
Pvalor > alpha
P valor é maior que alpha, não rejeitando H0,portanto os gêneros literários tem a mesma distribuição de score.
—> Nota média por Gênero
H0: Os gêneros literários são amostrados de populações com distribuição de nota média iguais.
H1: Pelo menos um dos gêneros literários teem distribuiçao de nota média diferente
Alpha 0,05
SE P VALOR < ALPHA REJEEITA H0
SE P VALOR > ALPHA NÃO REJEITA H0
kruskal.test(book_genre~avg_rating, data = Goodreads_best1500books)##
## Kruskal-Wallis rank sum test
##
## data: book_genre by avg_rating
## Kruskal-Wallis chi-squared = 166.46, df = 155, p-value = 0.2504
Pvalor > alpha
P valor é maior que alpha, não rejeitando H0,portanto os gêneros literários tem a mesma distribuição de nota média.
Com a análise dos resultados obtidos ao longo do relatorio, vê-se que os livros da lista seguem alguns padrões, como serem a maior parte na lingua inglesa,isso pode acontecer por o goodreads ser uma plataforma internacional, que tem origem norte-americana, mas também pelo fácil acesso a livros internacionais traduzidos pelo mundo, como exemplo, nota-se que as editoras brasileiras acabam publicando mais livros estrangeiros do que nacionais por ter um público já formado.
É também, bem evidente, que o gênero mais encontrado na lista, com quase 400 livros, são de ficção, o que pode englobar diversos subgêneros.
Pode-se ver também, que os livros dessa lista, em sua maior parte são de 2001 a 2010, o que pode ser justificado pelo tempo que foram publicados, não cairam no esquecimento e mesmo hoje ainda são lidos e apreciados.
Já dentro dos gêneros literários,é visto uma simetria, uma mesma distribuição de score e nota média dentro dos gêneros.
Passando para análise do score com as demais variáveis, inesperamente o score não tem relação com a nota média mas por outro lado tem relação com o numéro total de notas dadas pelos leitores da plataforma, o que significa dizer que quanto mais notas o livros recebe, maior é o score desse livro na lista e consequentemente mais ao topo da lista se encontra.
Conclui-se, que os livros da lista seguem alguns padrões que foram destacados pelos gráficos e testes feitos em cima da base de dados, mas também foi visto que certas variáveis não tem nenhuma relação.
Banco de dados usado: https://www.kaggle.com/alhanoofat/goodreadsbest1500books
Lista atualizada dos melhores livros do século XXI no goodreads : https://www.goodreads.com/list/show/7.Best_Books_of_the_21st_Century