dados = read_csv(
    here::here("data/participation-per-country.csv"),
    col_types = cols(
        .default = col_double(),
        site = col_character(),
        country = col_character(),
        geo = col_character(),
        four_regions = col_character(),
        eight_regions = col_character(),
        six_regions = col_character(),
        `World bank income group 2017` = col_character()
    )
) %>% filter(usuarios > 250)

filtered <- dados %>% 
    filter(!is.na(usuarios),!is.na(Internet),!is.na(comentaram_prop),!is.na(six_regions))

glimpse(dados)
## Observations: 112
## Variables: 21
## $ site                           <chr> "StackOverflow", "StackOverflow", "S...
## $ country                        <chr> "Argentina", "Australia", "Austria",...
## $ PDI                            <dbl> 49, 36, 11, 80, 65, 69, 70, 39, 63, ...
## $ IDV                            <dbl> 46, 90, 55, 20, 75, 38, 30, 80, 23, ...
## $ MAS                            <dbl> 56, 61, 79, 55, 54, 49, 40, 52, 28, ...
## $ UAI                            <dbl> 86, 51, 70, 60, 94, 76, 85, 48, 86, ...
## $ usuarios                       <dbl> 2798, 12313, 2518, 2558, 4275, 10717...
## $ responderam_prop               <dbl> 0.5357398, 0.6133355, 0.6310564, 0.3...
## $ perguntaram_prop               <dbl> 0.5210865, 0.5897832, 0.5933280, 0.4...
## $ editaram_prop                  <dbl> 0.09256612, 0.14699911, 0.14932486, ...
## $ comentaram_prop                <dbl> 0.2533953, 0.3339560, 0.3502780, 0.1...
## $ GNI                            <dbl> NA, 59570, 48160, 840, 44990, 11630,...
## $ Internet                       <dbl> 51.0, 79.5, 79.8, 5.0, 78.0, 45.0, 5...
## $ EPI                            <dbl> 59.02, NA, 63.21, NA, 61.21, 49.96, ...
## $ geo                            <chr> "arg", "aus", "aut", "bgd", "bel", "...
## $ four_regions                   <chr> "americas", "asia", "europe", "asia"...
## $ eight_regions                  <chr> "america_south", "east_asia_pacific"...
## $ six_regions                    <chr> "america", "east_asia_pacific", "eur...
## $ Latitude                       <dbl> -34.00000, -25.00000, 47.33333, 24.0...
## $ Longitude                      <dbl> -64.00000, 135.00000, 13.33333, 90.0...
## $ `World bank income group 2017` <chr> "Upper middle income", "High income"...

Estamos interessados na relação entre quanto as pessoas de diferentes países comentam em questões dos outros. A proporção das pessoas do país que comentou nas questões de outros está medido na variável comentaram_prop.

Considerando essa variável, queremos examinar a relação entre ela e o quão hierárquicas são as relações em um país (PDI). Queremos também levar em conta o quanto as pessoas daquele país têm acesso à Internet (Internet) e qual o tamanho da base de dados que detectamos daquele país (usuarios).

Examinando essa relação

Faça uma visualização que usa os princípios de eficácia no projeto de visualizações para facilitar as comparações que você acha que são as mais importantes para entendermos esse contexto.

    ggplot(filtered, mapping = aes(x = PDI, y = comentaram_prop, color = Internet, size = usuarios)) +
    geom_point(alpha = .6) +
    facet_grid(~site, scales = "free_x") + 
    labs(x = "PDI", y = "Pessoas que comentaram assuntos de outros países (%)")

Pelo alinhamento dos pontos no gráfico, pode-se perceber que há alguma relação entre as variáveis com a porcentagem de pessoas que comentaram assuntos de outros. A seguir, vamos calcular os valores de correlação e ver como estas relações se comportam.

Correlação comentaram_prop e PDI

corrPDI <- filtered %>% 
    summarise(pearson = cor(comentaram_prop, PDI, method = "pearson"),
              kendall = cor(comentaram_prop, PDI, method = "kendall"),
              spearman = cor(comentaram_prop, PDI, method = "spearman"))
corrPDI
## # A tibble: 1 x 3
##   pearson kendall spearman
##     <dbl>   <dbl>    <dbl>
## 1  -0.647  -0.484   -0.661

Os valores de correlação entre comentaram_prop e PDI mostram uma relação linear razoável negativamente entre as variáveis, o que indica que quanto maior o número de pessoas que comentaram sobre outros países, menor se torna o PDI, o que indica que as pessoas se esforçam para igualar a distribuição do poder e exigir justificativa para as desigualdades de poder.

Correlação filtrado pelo Site “StackOverflow”

corrPDI <- filter(filtered, site=="StackOverflow") %>%
    summarise(pearson = cor(comentaram_prop, PDI, method = "pearson"),
              kendall = cor(comentaram_prop, PDI, method = "kendall"),
              spearman = cor(comentaram_prop, PDI, method = "spearman"))
corrPDI
## # A tibble: 1 x 3
##   pearson kendall spearman
##     <dbl>   <dbl>    <dbl>
## 1  -0.652  -0.509   -0.668

Correlação filtrado pelo Site “SuperUser”

corrPDI <- filter(filtered, site=="SuperUser") %>%
    summarise(pearson = cor(comentaram_prop, PDI, method = "pearson"),
              kendall = cor(comentaram_prop, PDI, method = "kendall"),
              spearman = cor(comentaram_prop, PDI, method = "spearman"))
corrPDI
## # A tibble: 1 x 3
##   pearson kendall spearman
##     <dbl>   <dbl>    <dbl>
## 1  -0.678  -0.488   -0.689

Separadas por site as correlações são quase as mesmas, então os tipos de site não tem muita influencia na correlação geral.

corrNet <- filtered %>% 
    summarise(pearson = cor(comentaram_prop, Internet, method = "pearson"),
              kendall = cor(comentaram_prop, Internet, method = "kendall"),
              spearman = cor(comentaram_prop, Internet, method = "spearman"))
corrNet
## # A tibble: 1 x 3
##   pearson kendall spearman
##     <dbl>   <dbl>    <dbl>
## 1   0.599   0.449    0.604

Correlação filtrado pelo Site “StackOverflow”

corrPDI <- filter(filtered, site=="StackOverflow") %>%
    summarise(pearson = cor(comentaram_prop, Internet, method = "pearson"),
              kendall = cor(comentaram_prop, Internet, method = "kendall"),
              spearman = cor(comentaram_prop, Internet, method = "spearman"))
corrPDI
## # A tibble: 1 x 3
##   pearson kendall spearman
##     <dbl>   <dbl>    <dbl>
## 1   0.634   0.509    0.657

Correlação filtrado pelo Site “SuperUser”

corrPDI <- filter(filtered, site=="SuperUser") %>%
    summarise(pearson = cor(comentaram_prop, Internet, method = "pearson"),
              kendall = cor(comentaram_prop, Internet, method = "kendall"),
              spearman = cor(comentaram_prop, Internet, method = "spearman"))
corrPDI
## # A tibble: 1 x 3
##   pearson kendall spearman
##     <dbl>   <dbl>    <dbl>
## 1   0.571   0.387    0.533

Todas as correlações entre comentaram_prop e Internet mostram uma relação linear razoável positiva (entre 0.4 e 0.7), o que indica que a porcentagem de pessoas que comentaram assuntos de outros países está diretamente relacionado com a quantidade de pessoas que possuem internet.

corrNet <- filtered %>% 
    summarise(pearson = cor(comentaram_prop, usuarios, method = "pearson"),
              kendall = cor(comentaram_prop, usuarios, method = "kendall"),
              spearman = cor(comentaram_prop, usuarios, method = "spearman"))
corrNet
## # A tibble: 1 x 3
##   pearson kendall spearman
##     <dbl>   <dbl>    <dbl>
## 1   0.124   0.163    0.238

Todas as correlações entre comentaram_prop e usuarios são bem próximos de zero, mostrando uma relação linear fraca positiva, o que nos diz que é bem difícil a porcentagem de pessoas que comentaram assuntos de outros países ter relação com o tamanho da base de dados.

Correlação filtrado pelo Site “StackOverflow”

corrPDI <- filter(filtered, site=="StackOverflow") %>%
    summarise(pearson = cor(comentaram_prop, usuarios, method = "pearson"),
              kendall = cor(comentaram_prop, usuarios, method = "kendall"),
              spearman = cor(comentaram_prop, usuarios, method = "spearman"))
corrPDI
## # A tibble: 1 x 3
##   pearson kendall spearman
##     <dbl>   <dbl>    <dbl>
## 1   0.128   0.172    0.257

Correlação filtrado pelo Site “SuperUser”

corrPDI <- filter(filtered, site=="SuperUser") %>%
    summarise(pearson = cor(comentaram_prop, usuarios, method = "pearson"),
              kendall = cor(comentaram_prop, usuarios, method = "kendall"),
              spearman = cor(comentaram_prop, usuarios, method = "spearman"))
corrPDI
## # A tibble: 1 x 3
##   pearson kendall spearman
##     <dbl>   <dbl>    <dbl>
## 1   0.200   0.230    0.329

Outras formas de ver

Em seguida, faça 5 visualizações que usem as mesmas variáveis e também pontos, mas que sejam menos eficazes que a que você escolheu acima.

    ggplot(filtered, mapping = aes(x = comentaram_prop, y = PDI)) +
    geom_line() +
    geom_point(aes(color = Internet, size = usuarios)) +
    labs(x = "Proporção de pessoas que comentaram assuntos de outros países (%)", y = "PDI")

As linhas estão muito juntas e não é possível identificar com clareza a qual aresta a bolinha pertence.

    dados %>%
    ggplot(aes(x = comentaram_prop, y = PDI, color = Internet, size = usuarios)) +
    scale_color_distiller(palette="Pastel1") +
    geom_point(alpha = 0.7) +
    scale_x_discrete() +
    labs(x = "Proporção de pessoas que comentaram assuntos de outros países (%)", y = "PDI")

As bolinhas estão muito sobrepostas em cima das outras não permitindo uma visão clara dos pontos e as cores estão muito claras.

    filtered %>% na.omit() %>% 
    ggplot(aes(x = PDI, y = comentaram_prop, shape = six_regions, size = Internet)) +
    geom_point(alpha = .7) +
    labs(x = "PDI", y = "Pessoas que comentaram assuntos de outros países (%)")

Mesmo problema do plot anterior as formas estão muito sobrepostas e são da mesma cor, podendo cobrir formas menores, impendindo uma visualização clara em algumas áreas.

    ggplot(filtered, mapping = aes(fill=usuarios, x = PDI, y = country)) +
    geom_bar(position = "dodge", stat="identity") +
    labs(x = "PDI", y = "Países")

Nesta visualização, podemos ver que os nomes dos países estão muito próximos e os dados não estão ordenados, tornando a leitura mais difícil.

ggplot(filtered, aes(x = PDI, y = comentaram_prop, color = site, size = usuarios)) + geom_point(alpha = .6) +
    labs(x = "PDI", y = "Pessoas que comentaram assuntos de outros países (%)")

A visualização mostra os dados dos sites no mesmo gráfico o que pode fazer com que as bolinhas se sobreponham, atrapalhando a interpretação da imagem.

Bônus

Inclua o continente dos países (six_regions) na visualização.

    ggplot(filtered, mapping = aes(x = comentaram_prop, y = PDI, color = Internet, size = usuarios)) + geom_point(alpha = .6) +
    labs(x = "Proporção de pessoas que comentaram assuntos de outros países (%)", y = "PDI") + scale_color_distiller(palette="RdYlGn") +
    facet_wrap(~six_regions)

Na África e no Sul da Ásia a porcentagem de pessoas que comentaram assuntos de outros países é muito pequena para PDI’s muito altos, enquanto que, na Ásia Central e Oeste esse número é assim, assim como o número de usuários que tem internet, e os níveis de PDI são bem equilibrados. Pode-se perceber um padrão linear em alguns gráficos, onde a portcentagem é menor o nível de PDI é alto, ou seja as pessoas não se impõem tanto assim para combater a desigualdade de poder.