dados = read_csv(
here::here("data/participation-per-country.csv"),
col_types = cols(
.default = col_double(),
site = col_character(),
country = col_character(),
geo = col_character(),
four_regions = col_character(),
eight_regions = col_character(),
six_regions = col_character(),
`World bank income group 2017` = col_character()
)
) %>%
filter(usuarios > 200)
Estamos interessados na relação entre quanto as pessoas de diferentes países comentam em questões dos outros. A proporção das pessoas do país que comentou nas questões de outros está medido na variável comentaram_prop.
Considerando essa variável, queremos examinar a relação entre ela e o quão hierárquicas são as relações em um país (PDI). Queremos também levar em conta o quanto as pessoas daquele país têm acesso à Internet (Internet) e qual o tamanho da base de dados que detectamos daquele país (usuarios).
Faça uma visualização que usa os princípios de eficácia no projeto de visualizações para facilitar as comparações que você acha que são as mais importantes para entendermos esse contexto.
dados %>%
na.omit() %>%
ggplot(aes(x = PDI, y = comentaram_prop, colour = six_regions, size = Internet)) +
geom_point(alpha = .6) +
scale_color_brewer(palette = "Dark2") +
labs(x = "PDI - Índice de Distância de Poder", y = "Proporção dos que Comentaram em Outros Países")
Podemos utilizar um gráfico de disperção para investigar o relacionamento entre três variáveis, internet, PDI e comentaram_prop. Personalizando o canal da cor do ponto utilizando uma escala categórica, facilita a diferenciação dos grupos por região, e o tamanho do ponto possibilita a visualização de uma variável contínua adicional.
Em seguida, faça 5 visualizações que usem as mesmas variáveis e também pontos, mas que sejam menos eficazes que a que você escolheu acima.
dados %>%
na.omit() %>%
ggplot(aes(x = PDI, y = comentaram_prop, shape = six_regions, size = Internet)) +
geom_point(alpha = .6) +
scale_color_brewer(palette = "Dark2") +
labs(x = "PDI - Índice de Distância de Poder", y = "Proporção dos que Comentaram em Outros Países")
O canal forma, pode ser muito interessante em alguns casos, porém a maior significância da cor fica evidente ao substitur estes canais.
dados %>%
na.omit() %>%
ggplot(aes(x = PDI, y = comentaram_prop, colour = six_regions, size = Internet)) +
geom_point(alpha = .6) +
scale_color_brewer() +
labs(x = "PDI - Índice de Distância de Poder", y = "Proporção dos que Comentaram em Outros Países")
Entretanto, ao escolhermos as cores, é necessário que utilizemos a paleta apropriada. Uma paleta sequencial quando queremos codificar uma variável categórica cria um efeito confuso e dificulta muito a diferenciação entre os grupos.
dados %>%
na.omit() %>%
ggplot(aes(x = PDI, y = comentaram_prop, colour = six_regions)) +
geom_point(alpha = .6) +
scale_color_brewer(palette = "Dark2") +
labs(x = "PDI - Índice de Distância de Poder", y = "Proporção dos que Comentaram em Outros Países")
No nosso caso, o tamanho dos pontos não foi apenas útil para adicionar mais uma variável à visualização. Ele também facilita a visualização dos pontos! Perceba que se torna um pouco mais difícil identificar os diferentes continentes na versão onde os pontos são todos pequenos. Outra opção seria apenas aumentar o tamanho (sem atrelá-los à outra variável) e manipular o alpha.
dados %>%
na.omit() %>%
ggplot(aes(x = PDI, y = comentaram_prop, colour = six_regions, size = Internet)) +
geom_point() +
scale_color_brewer(palette = "Dark2") +
labs(x = "PDI - Índice de Distância de Poder", y = "Proporção dos que Comentaram em Outros Países")
Manipular a transparência dos pontos também melhora a qualidade da visualização. Podemos ver que na versão onde não o fazemos, temos pontos aglomerados em posições semelhantes, perdemos assim a noção da quantidade de pontos que pode estar posicionada naqueles lugares específicos.
dados %>%
na.omit() %>%
ggplot(aes(x = PDI, y = comentaram_prop, colour = six_regions, shape = six_regions ,size = Internet)) +
geom_point(alpha = .6) +
scale_color_brewer(palette = "Dark2") +
labs(x = "PDI - Índice de Distância de Poder", y = "Proporção dos que Comentaram em Outros Países")
Adicionar redundância para a codificação de uma variável muitas vezes pode realçar as diferenças que desejamos apresentar, entretanto a introdução de mais um canal de informação pode sim tornar uma visualização mais complexa.
Inclua o continente dos países (six_regions) na visualização.