Para examinar a relação entre a proporção de pessoas que comentam nas
questões de outros e o índice de distância de poder PDI, considerando o
acesso à Internet e o tamanho da base de usuário, foi criado um gráfico
de dispersão. O eixo x representa o PDI, o eixo y
representa o comentaram_prop, o tamanho dos pontos indica
usuarios e a cor dos pontos representa
Internet.
ggplot(dados, aes(x = PDI, y = comentaram_prop, size = usuarios, color = Internet)) +
geom_point(alpha = 0.7) +
scale_size_continuous(range = c(2, 10), name = "Tamanho da Base de Usuários") +
scale_color_viridis(name = "Acesso à Internet (%)") +
labs(
title = "Proporção de Comentários vs. Distância de Poder",
x = "Índice de Distância de Poder (PDI)",
y = "Proporção de Comentários nas Questões de Outros"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, size = 14),
legend.position = "right"
)
Essa visualização é eficaz porque: - Mostra claramente a relação
entre PDI e comentaram_prop. Usa tamanho e cor
para codificar usuarios e Internet de forma
intuitiva. Evita sobreposição excessiva com transparência
(alpha) e tamanhos apropriados. Emprega um tema limpo com
rótulos claros e uma paleta de cores acessível (viridis).
O bônus inclui os dados de continente, separando os dados por regioao geográfica, mantendo a vizualizaçao do gráfico anterior, sendo assim possível comparar entre os continentes.
#separando por continentes, fica um com null,
ggplot(dados, aes(x = PDI, y = comentaram_prop, size = usuarios, color = Internet)) +
geom_point(alpha = 0.7) +
scale_size_continuous(range = c(2, 10), name = " Base de Usuários") +
scale_color_viridis(name = "Acesso a Internet (%)") +
facet_wrap(~six_regions, scales = "free", ncol = 2) +
labs(
title = "Proporção de Comentários vs a Distância de Poder por Continente",
x = "INndice de distância de poder (PDI)",
y = "Proporção de comentários nas questões de outros"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5, size = 14),
strip.text = element_text(size = 12),
legend.position = "right"
)
Essa visualização adiciona valor ao separar os dados por continente, facilitando a identificação de padrões regionais enquanto mantém a clareza da codificação visual.
A seguir, temos 5 apresentaçoes de gráficos menos eficazes para vizualização de dados.
Este gráfico usa uma paleta de cores com gradiente menos vibrante, dificultando a distinção de valores altos e baixos.
ggplot(dados, aes(x = PDI, y = comentaram_prop, size = usuarios, color = Internet)) +
geom_point(alpha = 0.8) +
scale_size_continuous(range = c(1, 8), name = "base de usuários") +
scale_color_gradient(low = "lightgreen", high = "darkgreen", name = "Acesso a Internet (%)") +
labs(
title = "Paleta de Cores Menos Distinta e Contraste Ruim",
x = "PDI",
y = "Proporção de Comentários"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5)
)
Por que é menos eficaz: A paleta verde causa pouco contraste entre os ítens, o resultado disso é uma vizualização dificultada, pois não podemos distinguir ao certo o significado dos pontos.
Este gráfico aplica uma transformação quadrática ao eixo x do PDI distorcendo a relação linear entre os dados, o que dificulta comparações diretas.
ggplot(dados, aes(x = PDI^2, y = comentaram_prop, size = usuarios, color = Internet)) +
geom_point(alpha = 0.8) +
scale_size_continuous(range = c(1, 10), name = "Tamanho da Base de Usuários") +
scale_color_viridis(name = "Acesso a Internet (%)") +
labs(
title = "Escala Quadrática no Eixo X",
x = "PDI²",
y = "Proporção de Comentários"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5)
)
Por que é menos eficaz: - A transformação em (PDI²) distorce a relação linear, dificultando a interpretação da influência real de PDI. Algo ainda é compreensível, mas é mais difícil compreender.
Este gráfico usa tanto cor quanto tamanho para representar
Internet, desperdiçando uma dimensão visual e criando
confusão, enquanto usuarios é codificado por transparência,
que é menos intuitiva.
ggplot(dados, aes(x = PDI, y = comentaram_prop, size = Internet, color = Internet, alpha = usuarios)) +
geom_point() +
scale_size_continuous(range = c(1, 10), name = "Acesso a Internet (%)") +
scale_color_viridis(name = "Acesso à Internet (%)") +
scale_alpha_continuous(range = c(0.2, 0.8), name = "Tamanho da Base de Usuários") +
labs(
title = "Codificação Redundante de Internet",
x = "PDI",
y = "Proporção de Comentarios"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5)
)
## Warning: Removed 3 rows containing missing values or values outside the scale range
## (`geom_point()`).
Por que é menos eficaz: - Usar cor e tamanho para Internet é redundante, desperdiçando a dimensão de tamanho que poderia representar os usuários. Além disso, a transparencia faz com que seja difícil entender o que significa cada dado, com eles se sobrepondo.
Este gráfico inverte a codificação, usando tamanho para INTERNET e cor para USUARIOS, o que é menos intuitivo para essas variáveis.
ggplot(dados, aes(x = PDI, y = comentaram_prop, size = Internet, color = usuarios)) +
geom_point(alpha = 0.8) +
scale_size_continuous(range = c(1, 10), name = "Acesso à Internet (%)") +
scale_color_viridis(name = "Tamanho da Base de Usuários") +
labs(
title = "Tamanho Codificado por Internet",
x = "PDI",
y = "Proporção de Comentários"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5)
)
## Warning: Removed 3 rows containing missing values or values outside the scale range
## (`geom_point()`).
Por que é menos eficaz: - Usar tamanho para
Internet e cor para usuarios é menos
intuitivo, já que usuarios (quantidade) é mais naturalmente
representado por tamanho.
Este gráfico usa diferentes formas (círculos, triângulos, quadrados, etc.) para representar INTERNET, o que é inadequado para dados contínuos e dificulta a visualização, dessa forma o leitor não consegue distinguir os itens.
dados <- dados %>%
mutate(Internet_cat = cut(Internet, breaks = 5, labels = c("Muito Baixo", "Baixo", "Médio", "Alto", "Muito Alto")))
ggplot(dados, aes(x = PDI, y = comentaram_prop, size = usuarios, shape = Internet_cat)) +
geom_point(color = "darkblue", alpha = 0.8) +
scale_size_continuous(range = c(1, 10), name = "Tamanho da Base de Usuarios ") +
scale_shape_manual(values = c(16, 17, 15, 18, 19), name = "Acesso a internet (%)") +
labs(
title = "Formas Variadas para Internet",
x = "PDI",
y = "Proporção de Comentarios"
) +
theme_minimal() +
theme(
plot.title = element_text(hjust = 0.5)
)
## Warning: Removed 3 rows containing missing values or values outside the scale range
## (`geom_point()`).
Por que é menos eficaz: - Usar formas (círculos, triângulos, quadrados) para o dado de INTERNET é inadequado para dados contínuos,pois formas não têm uma ordem natural, dificultando comparações.
A visualizaçao mais esficaz influência na percepcção correta dos dados, as outras 5 visualizações informam os dados corretors, mas prejudicam a compreensão, e sao difíceis de distinguir.