Análise da relação entre hierarquia, acesso à internet e colaboração

Este relatório explora como a hierarquia cultural dos países (PDI), o acesso à internet e o continente se relacionam com a proporção de usuários que comentam em perguntas de outros. O objetivo é identificar padrões e discutir boas práticas de visualização de dados.

1. Leitura e preparação dos dados

Antes de iniciar as análises, é necessário importar os dados e preparar as variáveis que serão utilizadas nas visualizações.

# Leitura dos dados principais
dados <- read_csv("../data/participation-per-country.csv", show_col_types = FALSE) %>%
  filter(!is.na(comentaram_prop), !is.na(PDI), !is.na(Internet), !is.na(usuarios)) %>%
  mutate(
    internet_cat = cut(
      Internet,
      breaks = c(-Inf, 40, 70, Inf),
      labels = c("Baixo acesso", "Médio acesso", "Alto acesso")
    ),
    internet_cat = forcats::fct_relevel(internet_cat, "Alto acesso", "Médio acesso", "Baixo acesso"),
    continente = as.factor(six_regions)
  )
# Visualizar os continentes presentes
dados %>% count(continente)

2. Visualização principal: Relação entre hierarquia, acesso à internet e colaboração

O gráfico abaixo mostra a relação entre a hierarquia cultural dos países (PDI), o acesso à internet, o continente e a proporção de usuários que comentaram em perguntas de outros. Cada ponto representa um país, com cores para o acesso à internet e formas para o continente. A linha tracejada indica a tendência geral.

cores_internet <- c(
  "Alto acesso"  = "#4daf4a",  # verde
  "Médio acesso" = "#377eb8",  # azul
  "Baixo acesso" = "#e41a1c"   # vermelho
)

ggplot(dados, aes(x = PDI, y = comentaram_prop)) +
  geom_jitter(aes(color = internet_cat, shape = continente),
              size = 4, alpha = 0.95, width = 2, height = 0.025, stroke = 1.2) +
  geom_smooth(method = "lm", se = FALSE, color = "black",
              linetype = "dashed", linewidth = 1.5) +
  scale_color_manual(values = cores_internet, name = "Acesso à Internet") +
  labs(
    x = "Hierarquia do país",
    y = "Proporção de usuários que comentaram em perguntas de outros"
  ) +
  theme_minimal(base_size = 20) +
  theme(
    axis.title = element_text(size = 26),
    axis.text = element_text(size = 22),
    legend.title = element_text(size = 26),
    legend.text = element_text(size = 22),
    legend.position = "right"
  )

Interpretação do gráfico principal

  • Tendência geral: Países menos hierárquicos (PDI mais baixo) tendem a ter uma proporção maior de usuários que comentam em perguntas de outros, sugerindo que culturas mais igualitárias favorecem a colaboração.
  • Acesso à internet: Países com maior acesso à internet tendem a estar mais concentrados nas regiões superiores do gráfico, indicando que o acesso à internet pode facilitar a colaboração.
  • Diferenças entre continentes: Há variação entre continentes, mas a tendência negativa entre PDI e colaboração se mantém em praticamente todos eles.
  • Sobreposição e dispersão: Muitos países têm valores próximos, especialmente em níveis intermediários de PDI, indicando que outros fatores também influenciam o comportamento colaborativo.


Exemplos de visualizações menos eficazes

A seguir, apresento exemplos de visualizações alternativas, que são menos eficazes para análise e comparação. Cada gráfico é precedido de uma breve explicação sobre o que está sendo testado e por que pode ser menos eficiente.

3.1 Cor contínua para acesso à internet

Neste gráfico, a cor representa o acesso à internet de forma contínua. Isso dificulta a comparação entre categorias distintas de acesso, tornando a interpretação menos intuitiva.

ggplot(dados, aes(x = PDI, y = comentaram_prop, color = Internet)) +
  geom_point(size = 2, alpha = 0.7) +
  scale_color_viridis_c() +
  labs(title = "Cor contínua para acesso à internet", x = "PDI", y = "Comentaram_prop") +
  theme_minimal(base_size = 12)

3.2 Tamanho do ponto para número de usuários

Aqui, o tamanho dos pontos representa o número de usuários. Tamanhos diferentes podem ser difíceis de comparar visualmente, especialmente quando há sobreposição.

ggplot(dados, aes(x = PDI, y = comentaram_prop, size = usuarios)) +
  geom_point(color = "steelblue", alpha = 0.7) +
  labs(title = "Tamanho do ponto para usuários", x = "PDI", y = "Comentaram_prop") +
  theme_minimal(base_size = 12)

3.3 Shape para acesso à internet

Neste exemplo, o formato dos pontos representa o acesso à internet. Como há poucas formas distintas, a diferenciação pode ser limitada e confusa.

ggplot(dados, aes(x = PDI, y = comentaram_prop, shape = internet_cat)) +
  geom_point(color = "darkred", size = 2, alpha = 0.7) +
  labs(title = "Shape para acesso à internet", x = "PDI", y = "Comentaram_prop") +
  theme_minimal(base_size = 12)

3.4 Facet por continente

Aqui, os dados são separados em painéis por continente. Embora facilite a comparação dentro de cada continente, dificulta a comparação global.

ggplot(dados, aes(x = PDI, y = comentaram_prop, color = internet_cat)) +
  geom_point(size = 2, alpha = 0.7) +
  facet_wrap(~ continente) +
  scale_color_brewer(palette = "Set1") +
  labs(title = "Facet por continente", x = "PDI", y = "Comentaram_prop") +
  theme_minimal(base_size = 12)

3.5 Cor para continente, shape para acesso à internet

Neste gráfico, a cor representa o continente e o formato representa o acesso à internet. O excesso de elementos pode confundir o leitor e dificultar a análise.

ggplot(dados, aes(x = PDI, y = comentaram_prop, color = continente, shape = internet_cat)) +
  geom_point(size = 2, alpha = 0.7) +
  labs(title = "Cor para continente, shape para acesso à internet", x = "PDI", y = "Comentaram_prop") +
  theme_minimal(base_size = 12)