## Observations: 121
## Variables: 21
## $ site <chr> "StackOverflow", "StackOverflow", "S...
## $ country <chr> "Argentina", "Australia", "Austria",...
## $ PDI <dbl> 49, 36, 11, 80, 65, 69, 70, 39, 63, ...
## $ IDV <dbl> 46, 90, 55, 20, 75, 38, 30, 80, 23, ...
## $ MAS <dbl> 56, 61, 79, 55, 54, 49, 40, 52, 28, ...
## $ UAI <dbl> 86, 51, 70, 60, 94, 76, 85, 48, 86, ...
## $ usuarios <dbl> 2798, 12313, 2518, 2558, 4275, 10717...
## $ responderam_prop <dbl> 0.5357398, 0.6133355, 0.6310564, 0.3...
## $ perguntaram_prop <dbl> 0.5210865, 0.5897832, 0.5933280, 0.4...
## $ editaram_prop <dbl> 0.09256612, 0.14699911, 0.14932486, ...
## $ comentaram_prop <dbl> 0.25339528, 0.33395598, 0.35027800, ...
## $ GNI <dbl> NA, 59570, 48160, 840, 44990, 11630,...
## $ Internet <dbl> 51.0, 79.5, 79.8, 5.0, 78.0, 45.0, 5...
## $ EPI <dbl> 59.02, NA, 63.21, NA, 61.21, 49.96, ...
## $ geo <chr> "arg", "aus", "aut", "bgd", "bel", "...
## $ four_regions <chr> "americas", "asia", "europe", "asia"...
## $ eight_regions <chr> "america_south", "east_asia_pacific"...
## $ six_regions <chr> "america", "east_asia_pacific", "eur...
## $ Latitude <dbl> -34.00000, -25.00000, 47.33333, 24.0...
## $ Longitude <dbl> -64.00000, 135.00000, 13.33333, 90.0...
## $ `World bank income group 2017` <chr> "Upper middle income", "High income"...
Estamos interessados na relação entre quanto as pessoas de diferentes países comentam em questões dos outros. A proporção das pessoas do país que comentou nas questões de outros está medido na variável comentaram_prop.
Considerando essa variável, queremos examinar a relação entre ela e o quão hierárquicas são as relações em um país (PDI). Queremos também levar em conta o quanto as pessoas daquele país têm acesso à Internet (Internet) e qual o tamanho da base de dados que detectamos daquele país (usuarios).
Faça uma visualização que usa os princípios de eficácia no projeto de visualizações para facilitar as comparações que você acha que são as mais importantes para entendermos esse contexto.
dados %>%
ggplot(aes(x = comentaram_prop, y = PDI, color = Internet, size = usuarios)) +
geom_point(alpha = 0.5) +
scale_color_distiller(palette= "Blues") +
scale_size_continuous(range = c(1, 10)) +
labs(color = "Internet (%)", size = "Usuários", x = "Comentários", y = "PDI - Índice de Distância de Poder", title = "Gráifco da relação entre as variáveis do contexto")
Diante do gráfico acima, é possível representar as variáveis: comentaram_prop, PDI, Internet e usuarios. No eixo “X” colocamos os comentários feitos por um país e no eixo “Y” a variável PDI, e nesse relacionamento podemos observar a relação entre a proporção de comentários feitos por um país e a proporção como as pessoas lidam com às desigualdades,conseguimos identificar uma relação linear negativa fraca entre os pontos. Quando mais à direita do eixo “X”, ou seja, quanto mais aumenta a proporção de comentários, as pessoas são menos tolerantes às desigualdades, ou seja, mais baixo fica os valores no eixo “Y”. É possível também verificar que os países com maior acesso à internet também apresentam maior participação nos comentários, e que lidam bem com às desigualdades. Em contrapartida, os países com um número menor de acesso à internet apresentam uma baixa participação nos comentários e são menos tolerantes às desigualdades.
Em seguida, faça 5 visualizações que usem as mesmas variáveis e também pontos, mas que sejam menos eficazes que a que você escolheu acima.
dados %>%
ggplot(aes(x = usuarios, y = PDI, color = Internet, size = comentaram_prop)) +
geom_point(alpha = 0.5) +
scale_color_distiller(palette="Blues") +
labs(color = "Internet (%)", size = "Comentários", x = "Usuários", y = "PDI - Índice de Distância de Poder", title = "Gráifco-1 da relação entre as variáveis do contexto")
Na primeira visualização, foi feito a troca da variável comentários do eixo “X” e colocamos a variável Usuário. E as outras variáveis (Comentários e Internet) colocamos para ser representados pelo tamanho e intensidade de cor. Com isso fica difícil uma interpretação tanto no seu relacionamento entre Usuário e PDI como na forma de uma possível curva, se é linear negativa ou positiva e se é forte ou fraca.
dados %>%
na.omit() %>%
ggplot(aes(x = comentaram_prop, y = PDI, color = usuarios, size = Internet)) +
geom_point(alpha = 0.5) +
scale_color_distiller(palette="Blues") +
labs(color = "Usuários", size = "Internet (%)", x = "Comentários", y = "PDI - Índice de Distância de Poder", title = "Gráifco-2 da relação entre as variáveis do contexto")
Na segunda visualização, permaneceu as variáveis para “X” e “Y”, ou seja, Comentários e PDI, respectivamente, mas foi feito a troca do tamanho dos pontos e da intensidade da cor, onde era Usuários e Internet (%), respectivamente, passou para Internet (%) e Usuárioa. Diante deste contexto fica complicado identificar o relacionamento entre o número de usuário que é representado pela intensidade da cor e pelo uso da internet que é representado pelo tamanho, neste último podemos verificar que o tamanho entre eles é muito similar, não apresentando um visão sobre a relação entre usuário e acesso a internet que possa fazer uma análise.
dados %>%
ggplot(aes(x = comentaram_prop, y = PDI, color = Internet, size = usuarios, label = usuarios)) +
geom_point(alpha = 0.5) +
geom_text() +
scale_color_distiller(palette="Blues") +
scale_size_continuous(range = c(1, 10)) +
labs(color = "Internet (%)", size = "Usuários", x = "Comentários", y = "PDI - Índice de Distância de Poder", title = "Gráifco-3 da relação entre as variáveis do contexto")
Na terceira visualização, colocamos as variáveis nas mesmas posições, porém colocamos o parâmetro label ativo para informar o número de usuários “label = usuario” onde a representação do número de usuário dentro dos ponto coloca em cheque toda a visualização do gráfico, tanto para visualizar o seu tamanho como a intensidade das cores, dificultanto assim uma análise do relacionamento entre essas variáveis (usuários e internet) e as demais.
dados %>%
ggplot(aes(x = comentaram_prop, y = PDI, color = Internet, size = usuarios)) +
geom_point(alpha = 0.5) +
scale_color_distiller(palette="Blues") +
scale_x_discrete() +
scale_size_continuous(range = c(1, 10)) +
labs(color = "Internet (%)", size = "Usuários", x = "Comentários", y = "PDI - Índice de Distância de Poder", title = "Gráifco-4 da relação entre as variáveis do contexto")
Na quarta visualização, colocamos as variáveis nas mesmas posições, porém foi configurado o parâmetro que defini o intervalo no eixo “X” entre 1 e 10, restringindo o campo de visão dos dados, prejudicando toda a análise e possível interpretação entre as variáveis dispostas no gráfico.
dados %>%
ggplot(aes(x = comentaram_prop, y = PDI, color = Internet, size = usuarios)) +
geom_point(alpha = 0.5) +
scale_color_distiller(palette="Blues") +
labs(color = "Internet (%)", size = "Usuários", x = "Comentários", y = "PDI - Índice de Distância de Poder", title = "Gráifco-5 da relação entre as variáveis do contexto")
Na quinta visualização, colocamos as variáveis nas mesmas posições, porém não foi configurado de maneira correta dois recursos: o da palleta e o tamanho da área de plotagem referente aos usário. Assim é possível verificar a dificuldade em relacionar o número de usuário com o acesso a internet e como a internet poderia influenciar no número de comentários.
Inclua o continente dos países (six_regions) na visualização.
dados %>%
na.omit() %>%
ggplot(aes(x = comentaram_prop, y = PDI, color = Internet, size = usuarios)) +
geom_point(alpha = 0.5) +
facet_wrap(six_regions~., ncol = 2) +
scale_color_distiller(palette="YlGnBu") +
scale_size_continuous(range = c(1, 10)) +
labs(color = "Internet (%)", size = "Usuários", x = "Comentários", y = "PDI - Índice de Distância de Poder", title = "Gráifco por continente")