A poluição por plástico é um problema importante e crescente, afetando negativamente a saúde dos oceanos e da vida selvagem. Our World in Data tem muitos dados em vários níveis, em escala global, por país e ao longo do tempo.

Além disso, a National Geographic realizou um concurso de comunicação de visualização de dados sobre resíduos plásticos, como visto aqui.

Objetivos de aprendizagem

Visualizar dados numéricos e categóricos e interpretar visualizações
Recriação de visualizações

Iniciando

Pacotes

Usaremos o pacote tidyverse* para esta análise. Execute o seguinte código no Console para carregar este pacote.

library(tidyverse)

Dados

O conjunto de dados para esta tarefa pode ser encontrado no link a seguir, acessado por meio do comando:

#url_file <- "atalho no seu computador/plastic-waste.csv"

#plastic_waste <- read_csv(url_file)

#library(readr)
plastic_waste <- read_csv("D:/OneDrive - cefetmg.br/01_disciplinas/ERE/2020_2/R_adm/00_aulas/class07_dados_adm/data/plastic-waste.csv")

View(plastic_waste)

As descrições das variáveis são as seguintes:

code: código do país
entity: Nome do país
continent: Nome do continente
year: Ano
gdp_per_cap: PIB per capita internacional 2011 $, taxa
plastic_waste_per_cap: Quantidade de resíduos plásticos per capita em kg/dia
mismanaged_plastic_waste_per_cap: Quantidade de resíduos plásticos mal administrados per capita em kg/dia
mismanaged_plastic_waste: Toneladas de resíduos plásticos mal administrados
coastal_pop: Número de indivíduos que vivem no litoral/na costa
total_pop: População total de acordo com Gapminder

Warm up

Recorde que o RStudio está dividido em quatro painéis. Sem olhar, você pode nomeá-las todas e descrever brevemente seu propósito?
Verifique se o conjunto de dados foi carregado para o Ambiente. Quantas observações há no conjunto de dados? Ao clicar no conjunto de dados no Ambiente, você poderá inspecioná-lo com mais cuidado. Alternativamente, você pode digitar View(plastic_waste) no Console para fazer isso.
Dê uma rápida olhada nos dados e observe que há células que levam o valor NA - o que isso significa?

Exercícios

Vamos começar dando uma olhada na distribuição de resíduos plásticos per capita em 2010.

ggplot(data = plastic_waste, aes(x = plastic_waste_per_cap)) +
  geom_histogram(binwidth = 0.2)

## Warning: Removed 51 rows containing non-finite values (stat_bin).

Um país se destaca como uma observação incomum no topo da distribuição.

Uma maneira de identificar este país é filtrar os dados para países onde os resíduos plásticos per capita são maiores que 3,5 kg/pessoa.

plastic_waste %>%
  filter(plastic_waste_per_cap > 3.5)

## # A tibble: 1 x 10
##   code  entity   continent   year gdp_per_cap plastic_waste_p~ mismanaged_plast~
##   <chr> <chr>    <chr>      <dbl>       <dbl>            <dbl>             <dbl>
## 1 TTO   Trinida~ North Ame~  2010      31261.              3.6              0.19
## # ... with 3 more variables: mismanaged_plastic_waste <dbl>, coastal_pop <dbl>,
## #   total_pop <dbl>

Você esperava este resultado?

Você poderia considerar fazer alguma pesquisa sobre Trinidad e Tobago para ver por que os resíduos plásticos per capita são tão altos lá, ou se isto é um erro de dados.

Faça um histograma para a distribuição de resíduos plásticos per capita desagregados (facet) por continente. O que você pode dizer sobre como os continentes se comparam uns aos outros em termos de seus resíduos plásticos per capita?

⊕NOTA: A partir deste ponto, os gráficos e a saída do código não são exibidos nas instruções desta atividade, mas você mesmo pode e deve criar o código e ver os resultados.

Outra forma de visualizar os dados numéricos é utilizando gráficos de densidade.

ggplot(data = plastic_waste, aes(x = plastic_waste_per_cap)) +
  geom_density()

E comparar as distribuições entre continentes por curvas de densidade de coloração por continente.

ggplot(data = plastic_waste, 
       mapping = aes(x = plastic_waste_per_cap, 
                     color = continent)) +
  geom_density()

O gráfico resultante pode ser um pouco difícil de ler, então vamos também preencher as curvas com cores.

ggplot(data = plastic_waste, 
       mapping = aes(x = plastic_waste_per_cap, 
                     color = continent, 
                     fill = continent)) +
  geom_density()

A sobreposição de cores torna difícil dizer o que está acontecendo com as distribuições nos continentes plotados devido a continentes plotados sobre eles.

Podemos mudar o nível de transparência da cor de preenchimento para ajudar nisso.

O argumento alpha recebe valores entre 0 e 1: 0 é completamente transparente e 1 é completamente opaco. Não há como dizer qual valor funcionará melhor, então você só precisa tentar alguns valores.

ggplot(data = plastic_waste, 
       mapping = aes(x = plastic_waste_per_cap, 
                     color = continent, 
                     fill = continent)) +
  geom_density(alpha = 0.7)

Isto ainda não parece ótimo…

Recriar as parcelas de densidade acima usando um nível alpha diferente (inferior) que funcione melhor para exibir as curvas de densidade para todos os continentes.
Descreva porque definimos a “cor” e “preenchimento” das curvas através do mapeamento estético do gráfico, mas definimos o nível “alpha” como uma característica da geometria de plotagem.

E ainda outra maneira de visualizar esta relação é utilizando gráficos boxplot.

ggplot(data = plastic_waste, 
       mapping = aes(x = continent, 
                     y = plastic_waste_per_cap)) +
  geom_boxplot()

Converta os boxplot da tarefa anterior para plot de violino. O que os gráficos de violino revelam que os boxplot não revelam? Quais características são aparentes nas parcelas de box mas não nas parcelas de violino?

⊕Lembrar: Utilizamos geom_point() para fazer scatterplots.

Visualizar a relação entre os resíduos plásticos per capita e os resíduos plásticos mal administrados per capita usando um gráfico de dispersão. Descrever a relação.
Colorir os pontos no gráfico de dispersão por continente. Parece haver alguma distinção clara entre continentes com relação a como os resíduos plásticos per capita e os resíduos plásticos mal administrados per capita estão associados?
Visualize a relação entre os resíduos plásticos per capita e a população total, assim como os resíduos plásticos per capita e a população costeira. Você precisará fazer duas parcelas separadas. Algum destes pares de variáveis parece estar associado de forma mais linear?