Este relatório explora como a hierarquia cultural dos países (PDI), o acesso à internet e o continente se relacionam com a proporção de usuários que comentam em perguntas de outros. O objetivo é identificar padrões e discutir boas práticas de visualização de dados.
Antes de iniciar as análises, é necessário importar os dados e preparar as variáveis que serão utilizadas nas visualizações.
# Leitura dos dados principais
dados <- read_csv("../data/participation-per-country.csv", show_col_types = FALSE) %>%
filter(!is.na(comentaram_prop), !is.na(PDI), !is.na(Internet), !is.na(usuarios)) %>%
mutate(
internet_cat = cut(
Internet,
breaks = c(-Inf, 40, 70, Inf),
labels = c("Baixo acesso", "Médio acesso", "Alto acesso")
),
internet_cat = forcats::fct_relevel(internet_cat, "Alto acesso", "Médio acesso", "Baixo acesso"),
continente = as.factor(six_regions)
)
# Visualizar os continentes presentes
dados %>% count(continente)
O gráfico abaixo mostra a relação entre a hierarquia cultural dos países (PDI), o acesso à internet, o continente e a proporção de usuários que comentaram em perguntas de outros. Cada ponto representa um país, com cores para o acesso à internet e formas para o continente. A linha tracejada indica a tendência geral.
cores_internet <- c(
"Alto acesso" = "#4daf4a", # verde
"Médio acesso" = "#377eb8", # azul
"Baixo acesso" = "#e41a1c" # vermelho
)
ggplot(dados, aes(x = PDI, y = comentaram_prop)) +
geom_jitter(aes(color = internet_cat, shape = continente),
size = 4, alpha = 0.95, width = 2, height = 0.025, stroke = 1.2) +
geom_smooth(method = "lm", se = FALSE, color = "black",
linetype = "dashed", linewidth = 1.5) +
scale_color_manual(values = cores_internet, name = "Acesso à Internet") +
labs(
x = "Hierarquia do país",
y = "Proporção de usuários que comentaram em perguntas de outros"
) +
theme_minimal(base_size = 20) +
theme(
axis.title = element_text(size = 26),
axis.text = element_text(size = 22),
legend.title = element_text(size = 26),
legend.text = element_text(size = 22),
legend.position = "right"
)
A seguir, apresento exemplos de visualizações alternativas, que são menos eficazes para análise e comparação. Cada gráfico é precedido de uma breve explicação sobre o que está sendo testado e por que pode ser menos eficiente.
Neste gráfico, a cor representa o acesso à internet de forma contínua. Isso dificulta a comparação entre categorias distintas de acesso, tornando a interpretação menos intuitiva.
ggplot(dados, aes(x = PDI, y = comentaram_prop, color = Internet)) +
geom_point(size = 2, alpha = 0.7) +
scale_color_viridis_c() +
labs(title = "Cor contínua para acesso à internet", x = "PDI", y = "Comentaram_prop") +
theme_minimal(base_size = 12)
Aqui, o tamanho dos pontos representa o número de usuários. Tamanhos diferentes podem ser difíceis de comparar visualmente, especialmente quando há sobreposição.
ggplot(dados, aes(x = PDI, y = comentaram_prop, size = usuarios)) +
geom_point(color = "steelblue", alpha = 0.7) +
labs(title = "Tamanho do ponto para usuários", x = "PDI", y = "Comentaram_prop") +
theme_minimal(base_size = 12)
Neste exemplo, o formato dos pontos representa o acesso à internet. Como há poucas formas distintas, a diferenciação pode ser limitada e confusa.
ggplot(dados, aes(x = PDI, y = comentaram_prop, shape = internet_cat)) +
geom_point(color = "darkred", size = 2, alpha = 0.7) +
labs(title = "Shape para acesso à internet", x = "PDI", y = "Comentaram_prop") +
theme_minimal(base_size = 12)
Aqui, os dados são separados em painéis por continente. Embora facilite a comparação dentro de cada continente, dificulta a comparação global.
ggplot(dados, aes(x = PDI, y = comentaram_prop, color = internet_cat)) +
geom_point(size = 2, alpha = 0.7) +
facet_wrap(~ continente) +
scale_color_brewer(palette = "Set1") +
labs(title = "Facet por continente", x = "PDI", y = "Comentaram_prop") +
theme_minimal(base_size = 12)
Neste gráfico, a cor representa o continente e o formato representa o acesso à internet. O excesso de elementos pode confundir o leitor e dificultar a análise.
ggplot(dados, aes(x = PDI, y = comentaram_prop, color = continente, shape = internet_cat)) +
geom_point(size = 2, alpha = 0.7) +
labs(title = "Cor para continente, shape para acesso à internet", x = "PDI", y = "Comentaram_prop") +
theme_minimal(base_size = 12)