dados = read_csv(
    here::here("data/participation-per-country.csv"),
    col_types = cols(
        .default = col_double(),
        site = col_character(),
        country = col_character(),
        geo = col_character(),
        four_regions = col_character(),
        eight_regions = col_character(),
        six_regions = col_character(),
        `World bank income group 2017` = col_character()
    )
) %>% 
    filter(usuarios > 200)
glimpse(dados)
## Rows: 121
## Columns: 21
## $ site                           <chr> "StackOverflow", "StackOverflow", "Sta…
## $ country                        <chr> "Argentina", "Australia", "Austria", "…
## $ PDI                            <dbl> 49, 36, 11, 80, 65, 69, 70, 39, 63, 80…
## $ IDV                            <dbl> 46, 90, 55, 20, 75, 38, 30, 80, 23, 20…
## $ MAS                            <dbl> 56, 61, 79, 55, 54, 49, 40, 52, 28, 66…
## $ UAI                            <dbl> 86, 51, 70, 60, 94, 76, 85, 48, 86, 30…
## $ usuarios                       <dbl> 2798, 12313, 2518, 2558, 4275, 10717, …
## $ responderam_prop               <dbl> 0.5357398, 0.6133355, 0.6310564, 0.392…
## $ perguntaram_prop               <dbl> 0.5210865, 0.5897832, 0.5933280, 0.475…
## $ editaram_prop                  <dbl> 0.09256612, 0.14699911, 0.14932486, 0.…
## $ comentaram_prop                <dbl> 0.25339528, 0.33395598, 0.35027800, 0.…
## $ GNI                            <dbl> NA, 59570, 48160, 840, 44990, 11630, 6…
## $ Internet                       <dbl> 51.0, 79.5, 79.8, 5.0, 78.0, 45.0, 51.…
## $ EPI                            <dbl> 59.02, NA, 63.21, NA, 61.21, 49.96, NA…
## $ geo                            <chr> "arg", "aus", "aut", "bgd", "bel", "br…
## $ four_regions                   <chr> "americas", "asia", "europe", "asia", …
## $ eight_regions                  <chr> "america_south", "east_asia_pacific", …
## $ six_regions                    <chr> "america", "east_asia_pacific", "europ…
## $ Latitude                       <dbl> -34.00000, -25.00000, 47.33333, 24.000…
## $ Longitude                      <dbl> -64.00000, 135.00000, 13.33333, 90.000…
## $ `World bank income group 2017` <chr> "Upper middle income", "High income", …

Estamos interessados na relação entre quanto as pessoas de diferentes países comentam em questões dos outros. A proporção das pessoas do país que comentou nas questões de outros está medido na variável comentaram_prop.

Considerando essa variável, queremos examinar a relação entre ela e o quão hierárquicas são as relações em um país (PDI). Queremos também levar em conta o quanto as pessoas daquele país têm acesso à Internet (Internet) e qual o tamanho da base de dados que detectamos daquele país (usuarios).

Examinando essa relação

Faça uma visualização que usa os princípios de eficácia no projeto de visualizações para facilitar as comparações que você acha que são as mais importantes para entendermos esse contexto.

Visualização

dados %>%
    ggplot(aes(x = comentaram_prop, y = PDI, color = Internet, size = usuarios)) +
    geom_point(alpha = 0.65) +
    scale_color_distiller(palette="YlGnBu") +
    scale_size_continuous(range = c(1, 10)) +
    labs(color = "% de acesso à internet", size = "Qtd. de usuários", x = "Proporção de comentários")

Podemos observar pela visualização acima a relação entre a proporção de comentários feitos por um país (comentaram_prop) e a proporção de bem as pessoas dessa nacionalidade lidam com às desigualdades - considerando apenas as informações nos eixos x e y. É possível ver uma relação linear fraca e negativa, onde quanto mais a proporção de comentários aumenta, menos tolerantes às desigualdades as pessoas dos países serão.
Ao mesmo tempo, temos também as informações dos canais de tamanho e cor dos pontos, que nos indicam uma tendência de aumento no percentual de acesso à internet (Internet) na parte inferior direita, que representa nacionalidades que proporcionalmente mais comentam em publicações e também tem um baixo valor de PDI, lidando melhor com desigualdades. Esse último grupo caracterizado por três variáveis ainda pode ser melhor descrito ao levarmos em conta a quantidade de usuários presentes na base de dados, para o país (usuarios). Ela nos mostra que os países com maior percentual no acesso à internet geralmente tem uma base de dados maior, ou seja, mais usuários cadastrados, mais usuários que comentam e que também lidam bem com desigualdades. Por outro lado, a maioria dos países que tem uma menor proporção no acesso à internet vai possuir menos usuários na base de dados e comentam menos.

Outras formas de ver

Em seguida, faça 5 visualizações que usem as mesmas variáveis e também pontos, mas que sejam menos eficazes que a que você escolheu acima.

Vis 1

dados %>%
    ggplot(aes(x = usuarios, y = PDI, color = Internet, size = comentaram_prop)) +
    geom_point(alpha = 0.65) +
    scale_color_distiller(palette="YlGnBu") +
    labs(color = "% de acesso à internet", size = "Proporção de comentários", x = "Qtd. de usuários")

Vis 2

dados %>%
    na.omit() %>% 
    ggplot(aes(x = comentaram_prop, y = PDI, color = usuarios, size = Internet)) +
    geom_point(alpha = 0.65) +
    scale_color_distiller(palette="YlGnBu") +
    labs(color = "Qtd. de usuários", size = "% de acesso à internet", x = "Proporção de comentários")

Vis 3

dados %>%
    ggplot(aes(x = comentaram_prop, y = PDI, color = Internet, size = usuarios)) +
    geom_point(alpha = 0.65) +
    scale_color_distiller(palette="Dark2") +
    labs(color = "% de acesso à internet", size = "Qtd. de usuários", x = "Proporção de comentários")

Vis 4

dados %>%
    ggplot(aes(x = comentaram_prop, y = PDI, color = Internet, size = usuarios)) +
    geom_point(alpha = 0.65) +
    scale_color_distiller(palette="YlGnBu") +
    scale_x_discrete() +
    scale_size_continuous(range = c(1, 10)) +
    labs(color = "% de acesso à internet", size = "Qtd. de usuários", x = "Proporção de comentários")

Vis 5

dados %>%
    ggplot(aes(x = comentaram_prop, y = PDI, color = Internet, size = usuarios, label = comentaram_prop)) +
    geom_point(alpha = 0.65) +
    geom_text() +
    scale_color_distiller(palette="YlGnBu") +
    scale_size_continuous(range = c(1, 10)) +
    labs(color = "% de acesso à internet", size = "Qtd. de usuários", x = "Proporção de comentários")

Bônus

Inclua o continente dos países (six_regions) na visualização.

dados %>%
    na.omit() %>% 
    ggplot(aes(x = comentaram_prop, y = PDI, color = Internet, size = usuarios)) +
    geom_point(alpha = 0.65) +
    facet_wrap(six_regions~., ncol = 2) +
    scale_color_distiller(palette="YlGnBu") +
    scale_size_continuous(range = c(1, 10)) +
    labs(color = "% de acesso à internet", size = "Qtd. de usuários", x = "Proporção de comentários")