Estamos interessados na relação entre quanto as pessoas de diferentes
países comentam em questões dos outros. A proporção das pessoas do país
que comentou nas questões de outros está medido na variável
comentaram_prop.
Considerando essa variável, queremos examinar a relação entre ela e o
quão hierárquicas são as relações em um país (PDI).
Queremos também levar em conta o quanto as pessoas daquele país têm
acesso à Internet (Internet) e qual o tamanho da base de
dados que detectamos daquele país (usuarios).
Faça uma visualização que usa os princípios de eficácia no projeto de visualizações para facilitar as comparações que você acha que são as mais importantes para entendermos esse contexto.
dados = read_csv(here("data/participation-per-country.csv"),
col_types = cols(
.default = col_double(),
site = col_character(),
country = col_character(),
geo = col_character(),
four_regions = col_character(),
eight_regions = col_character(),
six_regions = col_character(),
`World bank income group 2017` = col_character()
)
)
Ccaculo de correlações
cor_pearson <- cor.test(dados$PDI, dados$comentaram_prop, method = "pearson")$estimate
cor_kendall <- cor.test(dados$PDI, dados$comentaram_prop, method = "kendall")$estimate
cor_spearman <- cor.test(dados$PDI, dados$comentaram_prop, method = "spearman", exact = FALSE)$estimate
cor_table <- data.frame(
Metodo = c("Pearson", "Kendall", "Spearman"),
Correlacao = c(cor_pearson, cor_kendall, cor_spearman)
)
kable(cor_table, digits = 2, caption = "Coeficientes de correlação")
| Metodo | Correlacao | |
|---|---|---|
| cor | Pearson | -0.52 |
| tau | Kendall | -0.39 |
| rho | Spearman | -0.54 |
É possível observar segundo uma análise, que:
Correlação de Pearson: A correlação de Pearson entre as variáveis PDI e comentaram_prop é de aproximadamente -0,52, indicando uma relação negativa moderada. Em outras palavras, países com índices de PDI mais elevados tendem a apresentar uma menor proporção de pessoas que comentam em questões de outros.
Correlação de Spearman: O coeficiente de Spearman é cerca de-0,54, também apontando para uma correlação negativa moderada entre as variáveis, considerando a ordem dos dados. Isso sugere que, de modo geral, quanto maior o PDI, menor a propensão a interações desse tipo.
Correlação de Kendall: A correlação de Kendall foi estimada em aproximadamente -0,39, o que reforça a existência de uma relação negativa moderada na ordenação das variáveis. Ou seja, à medida que o PDI aumenta, observa-se uma tendência de redução na proporção de comentários entre os usuários.
A seguir, apresenta-se o gráfico de dispersão que mostra a relação entre o índice PDI e a proporção de usuários que comentaram em questões de outros.
Na visualização do gráfico, observa-se que a cor dos pontos representa a porcentagem da população com acesso à internet, enquanto o tamanho indica o número de usuários do site em cada país. A linha de regressão foi adicionada para destacar a tendência geral, que neste caso é negativa. Os pontos em cinza correspondem a países sem dados disponíveis sobre acesso à internet, e por isso não foram incluídos na análise estatística.
Em seguida, faça 5 visualizações que usem as mesmas variáveis e também pontos, mas que sejam menos eficazes que a que você escolheu acima.
A inversão das coordenadas pode dificultar a leitura e interpretação dos dados e é bem fácil de cair nessa armadilha.
A escala da cor não definida pode deixar o gráfico sem entendimento, não tem comparação com outra cor, não mostra nada dessa maneira reduzindo bastante o entendimento.
A variável comentaram_prop está sendo usada tanto no eixo y quanto na cor, o que é redundante. Piorando a qualidade da visualização.
A forma dos pontos foi alterada para um triangulo, piorando a visualização.
Para a representação de proporção o gráfico de barras é uma pessíma escolha, assim sendo a maneira menos eficaz de visualziação apresentada.
Inclua o continente dos países (six_regions) na
visualização.
Finalizando, o bônus solicita a inclusão do continente dos países na visualização. O uso de cores distintas e da legenda com as respectivas regiões facilita a interpretação dos dados e reforça a escolha do gráfico de dispersão como a forma mais adequada para explorar essa relação.