Estamos interessados na relação entre quanto as pessoas de diferentes países comentam em questões dos outros. A proporção das pessoas do país que comentou nas questões de outros está medido na variável comentaram_prop.

Considerando essa variável, queremos examinar a relação entre ela e o quão hierárquicas são as relações em um país (PDI). Queremos também levar em conta o quanto as pessoas daquele país têm acesso à Internet (Internet) e qual o tamanho da base de dados que detectamos daquele país (usuarios).

Examinando essa relação

Faça uma visualização que usa os princípios de eficácia no projeto de visualizações para facilitar as comparações que você acha que são as mais importantes para entendermos esse contexto.

dados = read_csv(here("data/participation-per-country.csv"),
    col_types = cols(
        .default = col_double(),
        site = col_character(),
        country = col_character(),
        geo = col_character(),
        four_regions = col_character(),
        eight_regions = col_character(),
        six_regions = col_character(),
        `World bank income group 2017` = col_character()
    )
)

Ccaculo de correlações

cor_pearson <- cor.test(dados$PDI, dados$comentaram_prop, method = "pearson")$estimate
cor_kendall <- cor.test(dados$PDI, dados$comentaram_prop, method = "kendall")$estimate
cor_spearman <- cor.test(dados$PDI, dados$comentaram_prop, method = "spearman", exact = FALSE)$estimate


cor_table <- data.frame(
  Metodo = c("Pearson", "Kendall", "Spearman"),
  Correlacao = c(cor_pearson, cor_kendall, cor_spearman)
)

kable(cor_table, digits = 2, caption = "Coeficientes de correlação")
Coeficientes de correlação
Metodo Correlacao
cor Pearson -0.52
tau Kendall -0.39
rho Spearman -0.54

É possível observar segundo uma análise, que:

Gráfico de dispersão

A seguir, apresenta-se o gráfico de dispersão que mostra a relação entre o índice PDI e a proporção de usuários que comentaram em questões de outros.

Na visualização do gráfico, observa-se que a cor dos pontos representa a porcentagem da população com acesso à internet, enquanto o tamanho indica o número de usuários do site em cada país. A linha de regressão foi adicionada para destacar a tendência geral, que neste caso é negativa. Os pontos em cinza correspondem a países sem dados disponíveis sobre acesso à internet, e por isso não foram incluídos na análise estatística.

Outras formas de ver

Em seguida, faça 5 visualizações que usem as mesmas variáveis e também pontos, mas que sejam menos eficazes que a que você escolheu acima.

A inversão das coordenadas pode dificultar a leitura e interpretação dos dados e é bem fácil de cair nessa armadilha.

A escala da cor não definida pode deixar o gráfico sem entendimento, não tem comparação com outra cor, não mostra nada dessa maneira reduzindo bastante o entendimento.

A variável comentaram_prop está sendo usada tanto no eixo y quanto na cor, o que é redundante. Piorando a qualidade da visualização.

A forma dos pontos foi alterada para um triangulo, piorando a visualização.

Para a representação de proporção o gráfico de barras é uma pessíma escolha, assim sendo a maneira menos eficaz de visualziação apresentada.

Bônus

Inclua o continente dos países (six_regions) na visualização.

Finalizando, o bônus solicita a inclusão do continente dos países na visualização. O uso de cores distintas e da legenda com as respectivas regiões facilita a interpretação dos dados e reforça a escolha do gráfico de dispersão como a forma mais adequada para explorar essa relação.