dados = read_csv(
here::here("data/participation-per-country.csv"),
col_types = cols(
.default = col_double(),
site = col_character(),
country = col_character(),
geo = col_character(),
four_regions = col_character(),
eight_regions = col_character(),
six_regions = col_character(),
`World bank income group 2017` = col_character()
)
) %>%
filter(usuarios > 200)
glimpse(dados)
## Rows: 121
## Columns: 21
## $ site <chr> "StackOverflow", "StackOverflow", "Sta…
## $ country <chr> "Argentina", "Australia", "Austria", "…
## $ PDI <dbl> 49, 36, 11, 80, 65, 69, 70, 39, 63, 80…
## $ IDV <dbl> 46, 90, 55, 20, 75, 38, 30, 80, 23, 20…
## $ MAS <dbl> 56, 61, 79, 55, 54, 49, 40, 52, 28, 66…
## $ UAI <dbl> 86, 51, 70, 60, 94, 76, 85, 48, 86, 30…
## $ usuarios <dbl> 2798, 12313, 2518, 2558, 4275, 10717, …
## $ responderam_prop <dbl> 0.5357398, 0.6133355, 0.6310564, 0.392…
## $ perguntaram_prop <dbl> 0.5210865, 0.5897832, 0.5933280, 0.475…
## $ editaram_prop <dbl> 0.09256612, 0.14699911, 0.14932486, 0.…
## $ comentaram_prop <dbl> 0.25339528, 0.33395598, 0.35027800, 0.…
## $ GNI <dbl> NA, 59570, 48160, 840, 44990, 11630, 6…
## $ Internet <dbl> 51.0, 79.5, 79.8, 5.0, 78.0, 45.0, 51.…
## $ EPI <dbl> 59.02, NA, 63.21, NA, 61.21, 49.96, NA…
## $ geo <chr> "arg", "aus", "aut", "bgd", "bel", "br…
## $ four_regions <chr> "americas", "asia", "europe", "asia", …
## $ eight_regions <chr> "america_south", "east_asia_pacific", …
## $ six_regions <chr> "america", "east_asia_pacific", "europ…
## $ Latitude <dbl> -34.00000, -25.00000, 47.33333, 24.000…
## $ Longitude <dbl> -64.00000, 135.00000, 13.33333, 90.000…
## $ `World bank income group 2017` <chr> "Upper middle income", "High income", …
Estamos interessados na relação entre quanto as pessoas de diferentes países comentam em questões dos outros. A proporção das pessoas do país que comentou nas questões de outros está medido na variável comentaram_prop.
Considerando essa variável, queremos examinar a relação entre ela e o quão hierárquicas são as relações em um país (PDI). Queremos também levar em conta o quanto as pessoas daquele país têm acesso à Internet (Internet) e qual o tamanho da base de dados que detectamos daquele país (usuarios).
Faça uma visualização que usa os princípios de eficácia no projeto de visualizações para facilitar as comparações que você acha que são as mais importantes para entendermos esse contexto.
dados %>%
ggplot(aes(x = comentaram_prop,
y = PDI,
colour = Internet,
size = usuarios)) +
geom_point(alpha = .75) +
scale_color_gradient(low = "lightskyblue1",
space = "Lab",
high = "dodgerblue4",
aesthetics = "colour") +
labs(x = "Proporção de comentários",
size = "Usuários",
colour = "Acesso à Internet (%)")
cor_comentarios_pdi <- cor(dados %>% pull(comentaram_prop), dados %>% pull(PDI), method = "pearson")
A relação entre a quantidade de pessoas de um país que comentam em questões (comentaram_prop) e quão hierárquicas são as relações em um país (PDI) é linear, moderada e negativa, pois os valores da variável (PDI) diminuem à medida que (comentaram_prop) aumentam. Quantificando essa relação com um coeficiente de correlação, obtemos o valor -0.599, confirmando a relação moderada e negativa.
É possível, ainda, relacionar essas variáveis com outras duas: a quantidade de usuários (usuarios) e a porcentagem de acesso à Internet (Internet) de um país, associadas aos canais de tamanho e cor, respectivamente. Observamos que países que postam mais comentários possuem mais usuários, mais acesso à internet e relações menos hierárquicas, enquanto que países com mais relações hierárquicas e menos acesso à Internet postam menos comentários.
Em seguida, faça 5 visualizações que usem as mesmas variáveis e também pontos, mas que sejam menos eficazes que a que você escolheu acima.
As visualizações abaixo utilizarão diferentes mapeamentos de canais para tamanho e cores, de forma a diminuirem a eficiência da visualização tornando mais difíceis as tarefas de distinção de tamanhos e identificação de padrões por cores a partir de variáveis cuja distribuição não auxiliem nestas tarefas.
dados %>%
ggplot(aes(x = PDI,
y = comentaram_prop,
colour = usuarios,
size = Internet)) +
geom_point(na.rm = T,
alpha = .7) +
scale_color_distiller(palette="Spectral") +
labs(y = "Proporção de comentários",
size = "Acesso à Internet (%)",
colour = "Usuários")
dados %>%
ggplot(aes(x = comentaram_prop,
y = PDI,
colour = usuarios,
size = Internet)) +
geom_point(na.rm = T,
alpha = .7) +
scale_color_distiller(palette="BrBG") +
labs(x = "Proporção de comentários",
colour = "Usuários",
size = "Acesso à Internet (%)")
dados %>%
ggplot(aes(x = PDI,
y = comentaram_prop,
colour = Internet,
size = usuarios)) +
geom_point(na.rm = T,
alpha = .85) +
scale_color_distiller(palette="PiYG") +
labs(y = "Proporção de comentários",
colour = "Acesso à Internet (%)",
size = "Usuários")
dados %>%
ggplot(aes(x = PDI,
y = comentaram_prop,
colour = usuarios,
size = Internet)) +
geom_point(na.rm = T) +
scale_color_distiller(palette="Paired") +
scale_y_log10() +
labs(y = "Proporção de comentários",
size = "Acesso à Internet (%)",
colour = "Usuários")
dados %>%
ggplot(aes(x = comentaram_prop,
y = PDI,
colour = Internet,
size = usuarios)) +
geom_point(na.rm = T) +
scale_color_distiller(palette="Set2") +
labs(x = "Proporção de comentários",
colour = "Acesso à Internet (%)",
size = "Usuários")
Inclua o continente dos países (six_regions) na visualização.
dados %>%
filter(!is.na(six_regions)) %>%
mutate(six_regions = case_when(
six_regions == "america" ~ "America",
six_regions == "east_asia_pacific" ~ "East Asia Pacific",
six_regions == "europe_central_asia" ~ "Europe Central Asia",
six_regions == "south_asia" ~ "South Asia",
six_regions == "middle_east_north_africa" ~ "Middle East North \nAfrica",
six_regions == "sub_saharan_africa" ~ "Sub Saharan Africa",
TRUE ~ six_regions
)) %>%
ggplot(aes(x = comentaram_prop,
y = PDI,
colour = Internet,
size = usuarios)) +
geom_point() +
scale_color_gradient(low = "lightskyblue1",
space = "Lab",
high = "dodgerblue4",
aesthetics = "colour") +
facet_wrap(six_regions ~ .,
nrow = 4,
ncol = 2) +
theme(strip.text = element_text(size = 11)) +
labs(x = "Proporção de comentários",
size = "Usuários",
colour = "Acesso à Internet (%)")