dados = read_csv(
here::here("data/participation-per-country.csv"),
col_types = cols(
.default = col_double(),
site = col_character(),
country = col_character(),
geo = col_character(),
four_regions = col_character(),
eight_regions = col_character(),
six_regions = col_character(),
`World bank income group 2017` = col_character()
)
) %>%
filter(usuarios > 200)
glimpse(dados)
## Rows: 121
## Columns: 21
## $ site <chr> "StackOverflow", "StackOverflow", "Stac…
## $ country <chr> "Argentina", "Australia", "Austria", "B…
## $ PDI <dbl> 49, 36, 11, 80, 65, 69, 70, 39, 63, 80,…
## $ IDV <dbl> 46, 90, 55, 20, 75, 38, 30, 80, 23, 20,…
## $ MAS <dbl> 56, 61, 79, 55, 54, 49, 40, 52, 28, 66,…
## $ UAI <dbl> 86, 51, 70, 60, 94, 76, 85, 48, 86, 30,…
## $ usuarios <dbl> 2798, 12313, 2518, 2558, 4275, 10717, 1…
## $ responderam_prop <dbl> 0.5357398, 0.6133355, 0.6310564, 0.3928…
## $ perguntaram_prop <dbl> 0.5210865, 0.5897832, 0.5933280, 0.4757…
## $ editaram_prop <dbl> 0.09256612, 0.14699911, 0.14932486, 0.0…
## $ comentaram_prop <dbl> 0.25339528, 0.33395598, 0.35027800, 0.1…
## $ GNI <dbl> NA, 59570, 48160, 840, 44990, 11630, 68…
## $ Internet <dbl> 51.0, 79.5, 79.8, 5.0, 78.0, 45.0, 51.0…
## $ EPI <dbl> 59.02, NA, 63.21, NA, 61.21, 49.96, NA,…
## $ geo <chr> "arg", "aus", "aut", "bgd", "bel", "bra…
## $ four_regions <chr> "americas", "asia", "europe", "asia", "…
## $ eight_regions <chr> "america_south", "east_asia_pacific", "…
## $ six_regions <chr> "america", "east_asia_pacific", "europe…
## $ Latitude <dbl> -34.00000, -25.00000, 47.33333, 24.0000…
## $ Longitude <dbl> -64.00000, 135.00000, 13.33333, 90.0000…
## $ `World bank income group 2017` <chr> "Upper middle income", "High income", "…
Estamos interessados na relação entre quanto as pessoas de diferentes
países comentam em questões dos outros. A proporção das pessoas do país
que comentou nas questões de outros está medido na variável
comentaram_prop.
Considerando essa variável, queremos examinar a relação entre ela e o
quão hierárquicas são as relações em um país (PDI).
Queremos também levar em conta o quanto as pessoas daquele país têm
acesso à Internet (Internet) e qual o tamanho da base de
dados que detectamos daquele país (usuarios).
Faça uma visualização que usa os princípios de eficácia no projeto de visualizações para facilitar as comparações que você acha que são as mais importantes para entendermos esse contexto.
## Q1: Visualização eficaz
ggplot(data = dados, aes(x = PDI, y = comentaram_prop)) +
geom_point(aes(size = usuarios, color = Internet)) +
scale_color_gradient(low = "blue", high = "red") +
scale_size_continuous(range = c(2,10)) +
geom_smooth(method = "lm", se = FALSE, color = "black") +
labs(x = "PDI",
y = "Proporção de pessoas que comentaram em questões dos outros",
color = "Acesso à Internet", size = "Número de Usuários") +
theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'
A visualização mostra que há uma tendência negativa entre o PDI e a proporção de pessoas que comentam em questões dos outros — ou seja, países com estruturas mais hierárquicas (PDI alto) tendem a ter uma participação menor nos comentários de outros. Além disso, o acesso à Internet aparece como um fator relevante, pois países com maior penetração de Internet (tons mais avermelhados) concentram os maiores valores de comentaram_prop. O tamanho dos pontos também revela que países com mais usuários tendem a se agrupar no meio da distribuição. A análise sugere que culturas mais horizontais e com maior acesso digital favorecem o engajamento colaborativo.
Em seguida, faça 5 visualizações que usem as mesmas variáveis e também pontos, mas que sejam menos eficazes que a que você escolheu acima.
## Q2: Visualização 1
ggplot(data = dados, aes(x = PDI, y = comentaram_prop, color = comentaram_prop)) +
geom_point(aes(size = usuarios), alpha = 0.5) +
scale_color_gradient(low = "blue", high = "red") +
scale_size_continuous(range = c(2,10)) +
theme_minimal()
Gráfico com cor representando a própria variável de y (comentaram_prop) — prejudica a interpretação, pois reforça uma variável já no eixo y, sem trazer nova informação.
## Q2: Visualização 2
ggplot(data = dados, aes(x = PDI, y = comentaram_prop)) +
geom_point(aes(size = usuarios, color = Internet), alpha = 0.5) +
scale_color_gradient(low = "blue", high = "red") +
scale_size_continuous(range = c(2,10)) +
labs(x = "PDI", y = "Proporção de pessoas que comentaram em questões dos outros", size = "Usuários") +
theme_minimal() +
guides(color = FALSE) +
coord_flip()
## Warning: The `<scale>` argument of `guides()` cannot be `FALSE`. Use "none" instead as
## of ggplot2 3.3.4.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Gráfico invertido (coord_flip) sem legenda de cores — compromete a legibilidade e ignora a importante variável do acesso à Internet.
## Q2: Visualização 3
ggplot(data = dados, aes(x = PDI, y = comentaram_prop, color = Internet)) +
geom_point(aes(size = usuarios), shape = 1, alpha = 0.5) +
scale_color_gradient(low = "gray", high = "black") +
scale_size_continuous(range = c(2, 10)) +
theme_minimal()
Gráfico com pontos de borda (shape = 1) em escala de cinza — reduz o contraste e dificulta distinguir os dados com base na Internet.
## Q2: Visualização 4
ggplot(data = dados, aes(x = PDI, y = comentaram_prop, color = Internet)) +
geom_point(aes(size = usuarios, group = country), shape = "+") +
scale_color_gradient(low = "blue") +
scale_size_continuous(range = c(2,10)) +
theme_minimal() +
guides(size = FALSE)
Uso de símbolos em forma de “+” — menos intuitivo, pouco legível com muitos dados, e sem padronização clara por região ou site.
## Q2: Visualização 5
dados %>%
na.omit() %>%
filter(!is.na(six_regions)) %>%
ggplot(aes(
x = reorder(PDI, comentaram_prop),
y = comentaram_prop,
color = six_regions
)) +
geom_point(
alpha = 0.6,
color = "black",
fill = "red",
shape = 21,
size = 4,
stroke = 2,
show.legend = FALSE
) +
facet_grid(
site ~ .,
scales = "free_y"
) +
theme(
axis.title = element_text(color = "blue", size = 12, face = "bold"),
axis.text = element_text(color = "green", size = 10),
plot.title = element_text(color = "red", size = 16, face = "italic")
)
Gráfico facetado por site com estilização exagerada — embora interessante para outras comparações, não responde diretamente à relação central entre PDI e comentários, e complica a leitura com múltiplos painéis.
Essas visualizações demonstram que estética e variedade não substituem clareza e foco. A visualização mais eficaz foi aquela que combinou posicionamento (eixo), cor (Internet), tamanho (usuários) e tendência (linha de regressão) com equilíbrio visual e foco na mensagem principal.
Inclua o continente dos países (six_regions) na
visualização.
## Bonus:
dados_filtrados <- dados %>%
filter(!is.na(six_regions))
dados_filtrados$six_regions <- fct_infreq(dados_filtrados$six_regions)
ggplot(data = dados_filtrados, aes(x = PDI, y = comentaram_prop, color = six_regions)) +
geom_point(aes(size = usuarios)) +
scale_color_manual(values = palette()) +
scale_size_continuous(range = c(2, 10)) +
geom_smooth(method = "lm", se = FALSE, color = "black") +
labs(x = "PDI", y = "Proporção de pessoas que comentaram em questões dos outros", color = "Região", size = "Usuários") +
theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'
Ao agrupar os países por continente, é possível notar padrões regionais distintos: por exemplo, países da Europa e América do Norte tendem a apresentar PDI mais baixos e maiores proporções de participação. Já países da Ásia e África aparecem mais frequentemente em áreas de PDI alto e comentaram_prop baixo. Isso sugere que há fatores culturais regionais amplos atuando em conjunto com o acesso digital e estruturas de poder, o que reforça a importância de considerar o contexto regional na análise de participação colaborativa online.