Examinando essa relação

Para examinar a relação entre a proporção de pessoas que comentam nas questões de outros e o índice de distância de poder PDI, considerando o acesso à Internet e o tamanho da base de usuário, foi criado um gráfico de dispersão. O eixo x representa o PDI, o eixo y representa o comentaram_prop, o tamanho dos pontos indica usuarios e a cor dos pontos representa Internet.

ggplot(dados, aes(x = PDI, y = comentaram_prop, size = usuarios, color = Internet)) +
    geom_point(alpha = 0.7) +
    scale_size_continuous(range = c(2, 10), name = "Tamanho da Base de Usuários") +
    scale_color_viridis(name = "Acesso à Internet (%)") +
    labs(
        title = "Proporção de Comentários vs. Distância de Poder",
        x = "Índice de Distância de Poder (PDI)",
        y = "Proporção de Comentários nas Questões de Outros"
    ) +
    theme_minimal() +
    theme(
        plot.title = element_text(hjust = 0.5, size = 14),
        legend.position = "right"
    )

Essa visualização é eficaz porque: - Mostra claramente a relação entre PDI e comentaram_prop. Usa tamanho e cor para codificar usuarios e Internet de forma intuitiva. Evita sobreposição excessiva com transparência (alpha) e tamanhos apropriados. Emprega um tema limpo com rótulos claros e uma paleta de cores acessível (viridis).

Bônus: Incorporando Continentes

O bônus inclui os dados de continente, separando os dados por regioao geográfica, mantendo a vizualizaçao do gráfico anterior, sendo assim possível comparar entre os continentes.

#separando por continentes, fica um com null,
ggplot(dados, aes(x = PDI, y = comentaram_prop, size = usuarios, color = Internet)) +
    geom_point(alpha = 0.7) +
    scale_size_continuous(range = c(2, 10), name = " Base de Usuários") +
    scale_color_viridis(name = "Acesso a Internet (%)") +
    facet_wrap(~six_regions, scales = "free", ncol = 2) +
    labs(
        title = "Proporção de Comentários vs a Distância de Poder por Continente",
        x = "INndice de distância de poder (PDI)",
        y = "Proporção de comentários nas questões de outros"
    ) +
    theme_minimal() +
    theme(
        plot.title = element_text(hjust = 0.5, size = 14),
        strip.text = element_text(size = 12),
        legend.position = "right"
    )

Essa visualização adiciona valor ao separar os dados por continente, facilitando a identificação de padrões regionais enquanto mantém a clareza da codificação visual.

Outras formas de ver

A seguir, temos 5 apresentaçoes de gráficos menos eficazes para vizualização de dados.

Visualização 1: Paleta de Cores Menos Distinta e Menos Contrastante.

Este gráfico usa uma paleta de cores com gradiente menos vibrante, dificultando a distinção de valores altos e baixos.

ggplot(dados, aes(x = PDI, y = comentaram_prop, size = usuarios, color = Internet)) +
    geom_point(alpha = 0.8) +
    scale_size_continuous(range = c(1, 8), name = "base de usuários") +
    scale_color_gradient(low = "lightgreen", high = "darkgreen", name = "Acesso a Internet (%)") +
    labs(
        title = "Paleta de Cores Menos Distinta e Contraste Ruim",
        x = "PDI",
        y = "Proporção de Comentários"
    ) +
    theme_minimal() +
    theme(
        plot.title = element_text(hjust = 0.5)
    )

Por que é menos eficaz: A paleta verde causa pouco contraste entre os ítens, o resultado disso é uma vizualização dificultada, pois não podemos distinguir ao certo o significado dos pontos.

Visualização 2: Escala Quadrática no Eixo X

Este gráfico aplica uma transformação quadrática ao eixo x do PDI distorcendo a relação linear entre os dados, o que dificulta comparações diretas.

ggplot(dados, aes(x = PDI^2, y = comentaram_prop, size = usuarios, color = Internet)) +
    geom_point(alpha = 0.8) +
    scale_size_continuous(range = c(1, 10), name = "Tamanho da Base de Usuários") +
    scale_color_viridis(name = "Acesso a Internet (%)") +
    labs(
        title = "Escala Quadrática no Eixo X",
        x = "PDI²",
        y = "Proporção de Comentários"
    ) +
    theme_minimal() +
    theme(
        plot.title = element_text(hjust = 0.5)
    )

Por que é menos eficaz: - A transformação em (PDI²) distorce a relação linear, dificultando a interpretação da influência real de PDI. Algo ainda é compreensível, mas é mais difícil compreender.

Visualização 3: Codificação Redundante de Internet

Este gráfico usa tanto cor quanto tamanho para representar Internet, desperdiçando uma dimensão visual e criando confusão, enquanto usuarios é codificado por transparência, que é menos intuitiva.

ggplot(dados, aes(x = PDI, y = comentaram_prop, size = Internet, color = Internet, alpha = usuarios)) +
    geom_point() +
    scale_size_continuous(range = c(1, 10), name = "Acesso a Internet (%)") +
    scale_color_viridis(name = "Acesso à Internet (%)") +
    scale_alpha_continuous(range = c(0.2, 0.8), name = "Tamanho da Base de Usuários") +
    labs(
        title = "Codificação Redundante de Internet",
        x = "PDI",
        y = "Proporção de Comentarios"
    ) +
    theme_minimal() +
    theme(
        plot.title = element_text(hjust = 0.5)
    )
## Warning: Removed 3 rows containing missing values or values outside the scale range
## (`geom_point()`).

Por que é menos eficaz: - Usar cor e tamanho para Internet é redundante, desperdiçando a dimensão de tamanho que poderia representar os usuários. Além disso, a transparencia faz com que seja difícil entender o que significa cada dado, com eles se sobrepondo.

Visualização 4: Tamanho Codificado por Internet

Este gráfico inverte a codificação, usando tamanho para INTERNET e cor para USUARIOS, o que é menos intuitivo para essas variáveis.

ggplot(dados, aes(x = PDI, y = comentaram_prop, size = Internet, color = usuarios)) +
    geom_point(alpha = 0.8) +
    scale_size_continuous(range = c(1, 10), name = "Acesso à Internet (%)") +
    scale_color_viridis(name = "Tamanho da Base de Usuários") +
    labs(
        title = "Tamanho Codificado por Internet",
        x = "PDI",
        y = "Proporção de Comentários"
    ) +
    theme_minimal() +
    theme(
        plot.title = element_text(hjust = 0.5)
    )
## Warning: Removed 3 rows containing missing values or values outside the scale range
## (`geom_point()`).

Por que é menos eficaz: - Usar tamanho para Internet e cor para usuarios é menos intuitivo, já que usuarios (quantidade) é mais naturalmente representado por tamanho.

Visualização 5: Formas Variadas para Internet

Este gráfico usa diferentes formas (círculos, triângulos, quadrados, etc.) para representar INTERNET, o que é inadequado para dados contínuos e dificulta a visualização, dessa forma o leitor não consegue distinguir os itens.

dados <- dados %>% 
    mutate(Internet_cat = cut(Internet, breaks = 5, labels = c("Muito Baixo", "Baixo", "Médio", "Alto", "Muito Alto")))

ggplot(dados, aes(x = PDI, y = comentaram_prop, size = usuarios, shape = Internet_cat)) +
    geom_point(color = "darkblue", alpha = 0.8) +
    scale_size_continuous(range = c(1, 10), name = "Tamanho da Base de Usuarios ") +
    scale_shape_manual(values = c(16, 17, 15, 18, 19), name = "Acesso a internet (%)") +
    labs(
        title = "Formas Variadas para Internet",
        x = "PDI",
        y = "Proporção de Comentarios"
    ) +
    theme_minimal() +
    theme(
        plot.title = element_text(hjust = 0.5)
    )
## Warning: Removed 3 rows containing missing values or values outside the scale range
## (`geom_point()`).

Por que é menos eficaz: - Usar formas (círculos, triângulos, quadrados) para o dado de INTERNET é inadequado para dados contínuos,pois formas não têm uma ordem natural, dificultando comparações.

Conclusão

A visualizaçao mais esficaz influência na percepcção correta dos dados, as outras 5 visualizações informam os dados corretors, mas prejudicam a compreensão, e sao difíceis de distinguir.