Corrupção x Desenvolvimento Humano Para realizar este exercício, usaremos um banco de dados disponibilizado na página do nosso curso (homework3.xls). Para carregar este conjunto de dados no R, execute os seguintes comandos: library(readxl) homework3 = read excel(”homework3.xlsx”)

install.packages("ggplot2")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
install.packages("readxl")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
install.packages("ggthemes")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library(ggplot2)
library(ggthemes)
library(readxl)
Dados <- read_excel("homework3.xlsx")
Dados
## # A tibble: 173 × 5
##    Country     HDI_Rank HDI   CPI   Region           
##    <chr>          <dbl> <chr> <chr> <chr>            
##  1 Afghanistan      172 0.398 1.5   Asia Pacific     
##  2 Albania           70 0.739 3.1   East EU Cemt Asia
##  3 Algeria           96 0.698 2.9   MENA             
##  4 Angola           148 0.486 2     SSA              
##  5 Argentina         45 0.797 3     Americas         
##  6 Armenia           86 0.716 2.6   East EU Cemt Asia
##  7 Australia          2 0.929 8.8   Asia Pacific     
##  8 Austria           19 0.885 7.8   EU W. Europe     
##  9 Azerbaijan        91 0.7   2.4   East EU Cemt Asia
## 10 Bahamas           53 0.771 7.3   Americas         
## # … with 163 more rows
## # ℹ Use `print(n = ...)` to see more rows

Os dados dizem respeito basicamente ao índice de desenvolvimento humano (HDI) e percepção da corrupção (CPI)

A)Construa um diagrama de dispersão entre as variáveis CPI (eixo x) e HDI (eixo y). Coloque a cor vermelha nos pontos:

G <- ggplot(Dados) +
  geom_point(mapping = aes(x=CPI, y=HDI, colour="red"))
G

B)Agora diferencie a cor dos pontos por região:

G1 <- ggplot(Dados) +
  geom_point(mapping = aes(x=CPI, y=HDI, colour=factor(Region)))
G1

C)Faça um gráfico com pontos maiores (size =3):

G2 <- G1+
  geom_point(mapping = aes(x=CPI, y=HDI, colour=factor(Region), size =3))
G2

D)Faça um gráfico em que o tamanho dos pontos dependa da variável IHD:

G4 <- ggplot(Dados) +
  geom_point(mapping = aes(x=CPI, y=HDI, size = factor(Region)))
G4
## Warning: Using size for a discrete variable is not advised.

E) Inclua nomes nos eixos x e y, um título para o seu gráfico, bem como legendas que julgar necessárias:

G5 <- G4 +
  labs(title = "Percepção de Corrupção X Índice de Desenvolvimento Humano", x = "Corrupção", y= "Índice de Desenvolvimento Humano", size="Region")
G5
## Warning: Using size for a discrete variable is not advised.

F) Desafio: O gráfico abaixo foi publicado na revista The Economist e utiliza os dados contidos no arquivo que estamos usando. Escreva um código no R usando ggplot que replica tão próximo quanto possível o gráfico em questão:

Label <- c('Russia', 'Venezuela', 'Iraq', 'Myanmar', 'Sudan', 'Afghanistan', 'Congo', 'Greece', 'Argentina', 'Brazil', 'India', 'Italy', 'China', 'South Africa', 'Spain', 'Botswana', 'Cape Verde', 'Bhutan', 'Rwanda', 'France', 'United States', 'Germany', 'Britain', 'Barbados', 'Norway', 'Japan', 'New Zealand', 'Singapore')
DESAFIO <- ggplot(Dados, aes(y = as.numeric(HDI), x = as.numeric(CPI)))+
  geom_smooth(method = lm, se = FALSE, formula = y~log(x), color = "red")+
  labs(title='Corruption and Human Development', 
       x ='Corruption Perception Index, 2011 (10 = least corrupt)', 
       y ='Human Development Index, 2011 (1 = Best)', 
       colour = NULL)+
  geom_point(shape=21, size=3, fill="white", 
             mapping = aes(x = as.numeric(CPI), y = as.numeric(HDI), colour = factor(Region)))+
  scale_x_continuous(limits = c(1, 10))+
  scale_y_continuous(limits = c(0.2, 1.0))+
   theme_hc()+
   theme(legend.position = c("top"),
         legend.direction = "horizontal", 
         legend.justification = 0.5, 
         legend.text = element_text(size = 10, color = "gray10"))+
  geom_text(aes(label=Country), data=subset(Dados, Country %in% Label), check_overlap = TRUE)
DESAFIO

Dados$Region <- factor(Dados$Region,
                       levels = c("Americas",
                                  "Asia Pacific",
                                  "East EU Cemt Asia",
                                  "EU W. Europe",
                                  "MENA",
                                  "SSA"),
                       labels = c("Americas",
                                  "Asia & Oceania",
                                  "Central & Eastern Europe",
                                  "OECD",
                                  "Meadle East & North Africa",
                                  "Sub-Saharan Africa"))
DESAFIO$data <- Dados
DESAFIO