dados = read_csv(
    here::here("C:/Users/amand/OneDrive/Documentos/fpcc2/atividade-1/data/clima_cg_jp-semanal.csv"),
    col_types = cols(
        .default = col_double(),
        site = col_character(),
        country = col_character(),
        geo = col_character(),
        four_regions = col_character(),
        eight_regions = col_character(),
        six_regions = col_character(),
        `World bank income group 2017` = col_character()
    )
) %>% 
    filter(usuarios > 200)
glimpse(dados)
## Rows: 121
## Columns: 21
## $ site                           <chr> "StackOverflow", "StackOverflow", "Stac…
## $ country                        <chr> "Argentina", "Australia", "Austria", "B…
## $ PDI                            <dbl> 49, 36, 11, 80, 65, 69, 70, 39, 63, 80,…
## $ IDV                            <dbl> 46, 90, 55, 20, 75, 38, 30, 80, 23, 20,…
## $ MAS                            <dbl> 56, 61, 79, 55, 54, 49, 40, 52, 28, 66,…
## $ UAI                            <dbl> 86, 51, 70, 60, 94, 76, 85, 48, 86, 30,…
## $ usuarios                       <dbl> 2798, 12313, 2518, 2558, 4275, 10717, 1…
## $ responderam_prop               <dbl> 0.5357398, 0.6133355, 0.6310564, 0.3928…
## $ perguntaram_prop               <dbl> 0.5210865, 0.5897832, 0.5933280, 0.4757…
## $ editaram_prop                  <dbl> 0.09256612, 0.14699911, 0.14932486, 0.0…
## $ comentaram_prop                <dbl> 0.25339528, 0.33395598, 0.35027800, 0.1…
## $ GNI                            <dbl> NA, 59570, 48160, 840, 44990, 11630, 68…
## $ Internet                       <dbl> 51.0, 79.5, 79.8, 5.0, 78.0, 45.0, 51.0…
## $ EPI                            <dbl> 59.02, NA, 63.21, NA, 61.21, 49.96, NA,…
## $ geo                            <chr> "arg", "aus", "aut", "bgd", "bel", "bra…
## $ four_regions                   <chr> "americas", "asia", "europe", "asia", "…
## $ eight_regions                  <chr> "america_south", "east_asia_pacific", "…
## $ six_regions                    <chr> "america", "east_asia_pacific", "europe…
## $ Latitude                       <dbl> -34.00000, -25.00000, 47.33333, 24.0000…
## $ Longitude                      <dbl> -64.00000, 135.00000, 13.33333, 90.0000…
## $ `World bank income group 2017` <chr> "Upper middle income", "High income", "…

Estamos interessados na relação entre quanto as pessoas de diferentes países comentam em questões dos outros. A proporção das pessoas do país que comentou nas questões de outros está medido na variável comentaram_prop.

Considerando essa variável, queremos examinar a relação entre ela e o quão hierárquicas são as relações em um país (PDI). Queremos também levar em conta o quanto as pessoas daquele país têm acesso à Internet (Internet) e qual o tamanho da base de dados que detectamos daquele país (usuarios).

Examinando essa relação

Faça uma visualização que usa os princípios de eficácia no projeto de visualizações para facilitar as comparações que você acha que são as mais importantes para entendermos esse contexto.

visualizacao_eficaz <- ggplot(dados, aes(x = PDI, y = comentaram_prop, color = Internet, size = usuarios)) +
  geom_point(alpha = 0.7) +
  labs(x = "PDI", y = "Proporção de Pessoas que Comentaram", color = "Acesso à Internet", size = "Número de Usuários") +
  scale_color_gradient(low = "blue", high = "red") +
  scale_size(range = c(1, 10)) +
  ggtitle("Relação entre PDI,Pessoas que Comentaram, Acesso à Internet e Número de Usuários")

print(visualizacao_eficaz)

Com base no grafico, podemos ver uma for relação entre um baixo PDI com o alto acesso a internet e a frequência com a qual eles comentaram. Além disso, é bom salientar a presença de um menor acesso a internet conforme o PDI cresce ocasionando a diminiução de comentarios.

Outras formas de ver

Em seguida, faça 5 visualizações que usem as mesmas variáveis e também pontos, mas que sejam menos eficazes que a que você escolheu acima.

# Visualizações menos eficazes
visualizacao_1 <- ggplot(dados, aes(x = PDI, y = comentaram_prop)) +
  geom_point() +
  labs(x = "PDI", y = "Proporção de pessoas que comentaram") +
  ggtitle("Relação entre PDI e Proporção de Pessoas que Comentaram")

visualizacao_2 <- ggplot(dados, aes(x = Internet, y = comentaram_prop)) +
  geom_point() +
  labs(x = "Acesso à Internet", y = "Proporção de pessoas que comentaram") +
  ggtitle("Relação entre Acesso à Internet e Proporção de Pessoas que Comentaram")

visualizacao_3 <- ggplot(dados, aes(x = PDI, y = comentaram_prop, color = six_regions)) +
  geom_point() +
  labs(x = "PDI", y = "Proporção de pessoas que comentaram", color = "Região") +
  ggtitle("Relação entre PDI, Proporção de Pessoas que Comentaram e Região")

visualizacao_4 <- ggplot(dados, aes(x = IDV, y = comentaram_prop, color = Internet)) +
  geom_point() +
  labs(x = "IDV (Individualismo vs. Coletivismo)", y = "Proporção de pessoas que comentaram", color = "Acesso à Internet") +
  ggtitle("Relação entre IDV, Proporção de Pessoas que Comentaram e Acesso à Internet")

visualizacao_5 <- ggplot(dados, aes(x = MAS, y = comentaram_prop, fill = six_regions)) +
  geom_boxplot() +
  labs(x = "MAS (Masculinidade vs. Feminilidade)", y = "Proporção de pessoas que comentaram", fill = "Região") +
  ggtitle("Relação entre MAS, Proporção de Pessoas que Comentaram e Região")

visualizacao_6 <- ggplot(dados, aes(x = six_regions, fill = comentaram_prop)) +
  geom_bar() +
  labs(x = "Continente", y = "Contagem", fill = "Proporção de Pessoas que Comentaram") +
  ggtitle("Contagem de Proporção de Pessoas que Comentaram por Continente")

visualizacao_7 <- ggplot(dados, aes(x = Internet, y = usuarios, color = six_regions)) +
  geom_point(alpha = 0.7) +
  labs(x = "Acesso à Internet", y = "Número de Usuários", color = "Continente") +
  ggtitle("Relação entre Acesso à Internet, Número de Usuários e Continente")


print(visualizacao_1)

print(visualizacao_2)
## Warning: Removed 3 rows containing missing values (`geom_point()`).

print(visualizacao_3)

print(visualizacao_4)

print(visualizacao_5)

print(visualizacao_6)
## Warning: The following aesthetics were dropped during statistical transformation: fill
## ℹ This can happen when ggplot fails to infer the correct grouping structure in
##   the data.
## ℹ Did you forget to specify a `group` aesthetic or to convert a numerical
##   variable into a factor?

print(visualizacao_7)
## Warning: Removed 3 rows containing missing values (`geom_point()`).

Para cada uma dos graficos apresentados, temos a reutilização de variaveis utilizadas na visualização “Mais forte” mostrando visualizações uteis em outros formatos ou informação que já possuiamos na primeira visualização, porém com menos “poder” para determinarmos algo em uma visualização apenas. Além disso, nesses 7 graficos ainda foram adicionados o uso das regiões dos comentarios em 2 delas.

Bônus

Inclua o continente dos países (six_regions) na visualização.