dados = read_csv(
here::here("data/participation-per-country.csv"),
col_types = cols(
.default = col_double(),
site = col_character(),
country = col_character(),
geo = col_character(),
four_regions = col_character(),
eight_regions = col_character(),
six_regions = col_character(),
`World bank income group 2017` = col_character()
)
) %>%
filter(usuarios > 200)
dadosFiltrados <- dados %>%
filter(!is.na(Internet), !is.na(usuarios), !is.na(comentaram_prop), !is.na(six_regions))
glimpse(dados)
## Rows: 121
## Columns: 21
## $ site <chr> "StackOverflow", "StackOverflow",…
## $ country <chr> "Argentina", "Australia", "Austri…
## $ PDI <dbl> 49, 36, 11, 80, 65, 69, 70, 39, 6…
## $ IDV <dbl> 46, 90, 55, 20, 75, 38, 30, 80, 2…
## $ MAS <dbl> 56, 61, 79, 55, 54, 49, 40, 52, 2…
## $ UAI <dbl> 86, 51, 70, 60, 94, 76, 85, 48, 8…
## $ usuarios <dbl> 2798, 12313, 2518, 2558, 4275, 10…
## $ responderam_prop <dbl> 0.5357398, 0.6133355, 0.6310564, …
## $ perguntaram_prop <dbl> 0.5210865, 0.5897832, 0.5933280, …
## $ editaram_prop <dbl> 0.09256612, 0.14699911, 0.1493248…
## $ comentaram_prop <dbl> 0.25339528, 0.33395598, 0.3502780…
## $ GNI <dbl> NA, 59570, 48160, 840, 44990, 116…
## $ Internet <dbl> 51.0, 79.5, 79.8, 5.0, 78.0, 45.0…
## $ EPI <dbl> 59.02, NA, 63.21, NA, 61.21, 49.9…
## $ geo <chr> "arg", "aus", "aut", "bgd", "bel"…
## $ four_regions <chr> "americas", "asia", "europe", "as…
## $ eight_regions <chr> "america_south", "east_asia_pacif…
## $ six_regions <chr> "america", "east_asia_pacific", "…
## $ Latitude <dbl> -34.00000, -25.00000, 47.33333, 2…
## $ Longitude <dbl> -64.00000, 135.00000, 13.33333, 9…
## $ `World bank income group 2017` <chr> "Upper middle income", "High inco…
Estamos interessados na relação entre quanto as pessoas de diferentes países comentam em questões dos outros. A proporção das pessoas do país que comentou nas questões de outros está medido na variável comentaram_prop
.
Considerando essa variável, queremos examinar a relação entre ela e o quão hierárquicas são as relações em um país (PDI
). Queremos também levar em conta o quanto as pessoas daquele país têm acesso à Internet (Internet
) e qual o tamanho da base de dados que detectamos daquele país (usuarios
).
Faça uma visualização que usa os princípios de eficácia no projeto de visualizações para facilitar as comparações que você acha que são as mais importantes para entendermos esse contexto.
Para analisar a relação entre a participação de usuários através de comentários e o quão hierárquicas são as relações em um país (PDI), quantidade de pessoas que tem acesso à internet de cada país e por fim o tamanho da base de dados de usuários de cada nação é necessário utilizar todos essas variáveis para resultar em algo confiável, além de utilizar princípios de eficácia na visualização.
dadosFiltrados %>%
ggplot(mapping = aes(x = PDI, y = comentaram_prop, color = Internet, size = usuarios)) +
geom_point(alpha = .6) +
facet_grid(~site) +
labs(x = "Índice de Hierarquia nas Relações (PDI)", y = "Comentários proporcionais de cada país (%)", title = "Relação entre PDI e Proporção de comentários.") +
theme(plot.title = element_text(hjust = 0.5))
Pela visualização acima, podemos visualizar que que há uma relação entre o índice de comentários proporcionais por país e o PDI, aparentemente quanto maior é o o índice de comentários, menor é o PDI. Para concluir com mais confiança, será calculado as correlações de Person, Kendall e Spearman entre essas duas variáveis.
correlacoesPDI <- dadosFiltrados %>%
summarise(pearson = cor(PDI, comentaram_prop, method = "pearson", use = "pairwise.complete.obs"),
kendall = cor(PDI, comentaram_prop, method = "kendall", use = "pairwise.complete.obs"),
spearman = cor(PDI, comentaram_prop, method = "spearman", use = "pairwise.complete.obs"))
correlacoesPDI
## # A tibble: 1 x 3
## pearson kendall spearman
## <dbl> <dbl> <dbl>
## 1 -0.649 -0.484 -0.658
Os resultados acima confirma as afirmações anteriores. Mostra as correlações de Pearson (-0.65), Kendall (-0.48) e Spearman (-0.66) com relações negativas medianas, ou seja, quanto maior o índice de comentários menor é o PDI.
Analisando a relação entre as variáveis de índice de comentários e acesso à internet através do gráfico pode-se observar que quanto maior o índice de acesso á internet,maior também é a porporção de comentários. Isso fica claro no gráfico que a maioria dos pontos que está acima de 0.3 tem a cor mais clara que indica que tem um maior índice de acesso a internet. Calculando a correlação dessas duas variáveis, temos:
correlacoesInternet <- dadosFiltrados %>%
summarise(pearson = cor(Internet, comentaram_prop, method = "pearson", use = "pairwise.complete.obs"),
kendall = cor(Internet, comentaram_prop, method = "kendall", use = "pairwise.complete.obs"),
spearman = cor(Internet, comentaram_prop, method = "spearman", use = "pairwise.complete.obs"))
correlacoesInternet
## # A tibble: 1 x 3
## pearson kendall spearman
## <dbl> <dbl> <dbl>
## 1 0.622 0.466 0.627
Ao contrário da relação Comentários x PDI, a relação entre o índice de comentários e o índice de acesso a internet é uma relação positiva média, pois todos as correlações calculadas deram positivas entre 0.4 e 0.7, como pode ser visto acima. Isso quer dizer que quanto maior o índice comentários, maior vai ser o índice de acesso à internet do país analisado.
Partindo para a última análise de relação entre variáveis foi escolhido a relação entre índice de comentários e quantidade de usuários. Observando o gráfico, dá para perceber que essa relação segue mais ou menos a mesma linha da relação Comentários x Internet. No entanto, percebe-se que não é uam relação tão forte, pois no gráfico deixa claro exemplos de países que têm um número grande de usuários e não têm um índice grande de comentários e vice-versa. Por isso, é necessário analisar os coeficientes de correlações para concluir algo mais confiável.
correlacoesUsuarios <- dadosFiltrados %>%
summarise(pearson = cor(usuarios, comentaram_prop, method = "pearson", use = "pairwise.complete.obs"),
kendall = cor(usuarios, comentaram_prop, method = "kendall", use = "pairwise.complete.obs"),
spearman = cor(usuarios, comentaram_prop, method = "spearman", use = "pairwise.complete.obs"))
correlacoesUsuarios
## # A tibble: 1 x 3
## pearson kendall spearman
## <dbl> <dbl> <dbl>
## 1 0.136 0.200 0.291
Os resultados das correlações deram menor que 0.3. Por isso, é possível afirmar que a relação entre índice de comentários e quantidade de usuários é uma relação bem fraca e positiva. Quase não há relação entre essas duas variáveis, devido ao fato de que os resultados se aproximam bastante de zero.
Uma observação a ser feita é que a quantidade de dados do site SuperUser é significativamente menor que a quantidade de dados vindos do StackOverFlow, sendo assim, o gráfico do StackOverFlow pode ser mais mais representativo.
Em seguida, faça 5 visualizações que usem as mesmas variáveis e também pontos, mas que sejam menos eficazes que a que você escolheu acima.
dadosFiltrados %>%
ggplot(mapping = aes(fill=usuarios, x = country, y = PDI)) +
geom_bar(position = "dodge", stat="identity") +
theme(axis.text.x = element_text(angle = 90)) +
labs(x = "Países", y = "Índice de Hierarquia nas Relações (PDI)", title = "Relação entre PDI e Países") +
theme(plot.title = element_text(hjust = 0.5))
O gráfico de barras acima é menos eficiente devido ao fato de dificultar a visualização pelos dados não estarem ordenados. Além disso os nome dos país ficam bem próximos, dificultando a identificação e utiliza poucas variáveis para a análise (apenas PDI e número de usuários).
dadosFiltrados %>%
ggplot(aes(color = comentaram_prop, size = PDI, x = Internet, y = usuarios)) +
geom_point() +
labs(x = "Internet", y = "Usuários", title = "Relação entre acesso a Internet e quantidade de Usuários") +
theme(plot.title = element_text(hjust = 0.5))
A visualização acima é menos eficiente porque os pontos sobrepõem os outros, dificultando assim o entendimento do gráfico. Sendo assim, não dá para concluir muita coisa apenas observando o gráfico acima.
dadosFiltrados %>%
ggplot(mapping = aes(x = PDI, y = comentaram_prop, color = usuarios, size = Internet)) +
geom_point() +
facet_grid(site ~ four_regions) +
labs(x = "Índice de Hierarquia nas Relações (PDI)", y = "Comentários proporcionais de cada país (%)", title = "Relação entre PDI e Comentários") +
theme(plot.title = element_text(hjust = 0.5))
Análisando o gráfico acima, conclui-se que ele é menos eficiente que o primeiro gráfico plotado por causa que não há uma boa variação de cor dos pontos e temos um número pequeno da variação do tamanho dos pontos. Além de que novamente temos um gráfico sobreposto, dificultando assim o entendimento principal do gráfico.
dadosFiltrados %>%
ggplot(mapping = aes(x = comentaram_prop, y = PDI, alpha = Internet, size = usuarios, color = country)) +
geom_point() +
labs(x = "Comentários proporcionais de cada país (%)", y = "Índice de Hierarquia nas Relações (PDI)", title = "Relação entre Comentários e PDI.") +
theme(plot.title = element_text(hjust = 0.5))
A escolha da coloração por país deixa o gráfico menos eficaz devido ao grande número de nações, sendo assim, foi separado uma cor para cada país resultando em uma confusão, pois além de ser muitas cores elas são bem parecidas.
dadosFiltrados %>%
ggplot(mapping = aes(x = comentaram_prop, y = PDI)) +
geom_line() +
geom_point(aes(color = Internet, size = usuarios), alpha = .6) +
labs(x = "Comentários proporcionais de cada país (%)", y = "Índice de Hierarquia nas Relações (PDI)", title = "Relação entre Comentários e PDI") +
theme(plot.title = element_text(hjust = 0.5))
Acima vemos um gráfico menos eficiente pelo motivo de misturar um gráfico de pontos com um gráfico de linhas, gerando uma sobreposição em alguns casos, além de que a variação do PDI é grande em alguns casos, deixando o gráfico “rabiscado”.
Inclua o continente dos países (six_regions
) na visualização.
Adicionando a o continente dos países mencionados anteriormente, temos:
dadosFiltrados %>%
ggplot(mapping = aes(x = comentaram_prop, y = PDI, color = Internet, size = usuarios)) +
geom_point(alpha = .6) +
labs(x = "Comentários proporcionais de cada país (%)", y = "Índice de Hierarquia nas Relações (PDI)", title =
"Relação entre Comentários e PDI com as seis regiões") +
facet_wrap(~six_regions) +
theme(plot.title = element_text(hjust = 0.5))
Analisando o gráfico acima percebe-se que na Europa e Ásia Central há uma grande quantidade de países e com um índice elevado de acesso à internet, além de ter um grande índice de comentários proporcionais (grande maioria acima de 0.2).
Analisando o Sul da Ásia observa-se uma grande quantidade de usuários com um PDI elevado (acima de 50 em todos os casos), mas com um índice de comentários baixo. Uma observação é o número elevado de usuários em um país em específico e um índice pequeno de acesso à internet.
Já o caso da África subsaariana registra o menor índice de comentários (abaixo de 0.1) e o resto da região da África tem dados bem divididos, como um país que tenha um PDI elevado mas um índice de comentários baixo. Assim como, tem também um índice de comentários elevado e um PDI muito baixo (menor registrado). Em ambas as regiões, o número de usuários é baixo.
No Pacífico da Ásia, pode-se destacar o índice elevado de PDI. Por fim, a América registou o maior número de usuários em um único páis, com um índice de acesso à internet elevado em alguns país e outros com o índice bem baixo.