Trabalho Exploratória

Dados Exportação de Serviços em 2017

O presente trabalho visa explorar os dados de exportação de serviços no ano base de 2017. Para tanto, utilizamos os dados apresentados no site do Ministério da Indústria, Comércio Exterior e Serviços.

Introdução

As exportações de Serviços do Brasil são muito bastante concentradas. Países como os Estados Unidos são destino de grande parte das vendas de serviços. Consequentemente, alguns blocos econômicos como o NAFTA, em que os Estados Unidos são signatários, tem grande percentual de participação na balança comercial de Serviços. Nessa linha, o objetivo de presente trabalho é analisar o comportamento dos dados referente aos principais blocos econômicos dos quais o Brasil participa. Os principais blocos econômicos que serão analisados são: NAFTA, PACTO ANDINO, uNIÃO EUROPEIA e MERCOSUL. Os países que não tem expressão econômica relativamente às nossas exportações ou que não estão vinculados aos principais blocos que estudaremos serão designados por OUTROS.

library(dplyr)
#dados<- read.delim("./Dados/expor_imp.tsv",sep="",header=T)

dados<- read.delim("./Dados/exp_imp_2017.tsv",sep="",header=T)

# Dicionários dos dados: O conjunto de dados é composto de variáveis qualitativas e quantitativas. As variáveis PAIS, CAPITULO E BLOCO são variávieis qualitativas, enquanto VALOR_USD  e QTDE_VENDEDORES qualificam-se como quantitativas. A variável PAIS se refere aos países destinos de nossas exportações. A variável CAPITULO se refere à classificação do serviço exportado e que foi classificado segundo a Nomenclatura Brasileira de Serviços(NBS). A variável BLOCO refere-se ao bloco econômico ao qual os países estão vinculados. Com relação às variáveis quantitativas, temos que VALOR_USD se refere ao valor global exportado  de determinado serviço na moeda dólar americado(U$$). Por último, QTDE_VENDEDORES se refere à quantidade de exportadores que venderam o serviço especificado.

# Exemplo dos dados utilizados.
head(dados)

##             PAIS CAPITULO VALOR_USD QTDE_VENDEDORES BLOCO
## 1 Estados_Unidos     1.09  9.25e+09             176 NAFTA
## 2 Estados_Unidos     1.14  1.04e+09            1164 NAFTA
## 3 Estados_Unidos     1.14  6.93e+08             524 NAFTA
## 4        Holanda     1.14  5.72e+08              94  U.E.
## 5 Estados_Unidos     1.18  4.62e+08             286 NAFTA
## 6 Estados_Unidos     1.12  4.61e+08             123 NAFTA

dados<-tbl_df(dados)

attach(dados)
reg <-table(BLOCO)
par(mfrow=c(1,1), cex.axis=1, cex.lab=0.5) 
par(mar = c(5,4.1,4.1,0))

# Gráfico de Barras: No gráfico de barra abaixo podemos ver a expressão da variável qualitativa BLOCOS. Esse gráfico é um gráfico de contagem, que no presente caso evidencia que OUTROS e o bloco econômico da União Europeia tem grande representação nos dados.
barplot(reg,main="# Blocos",space=0.1)

reg <- 100* table(BLOCO)/length(BLOCO)


# Gráfico de Barras: No gráfico abaixo temos a representaçaõ da variável qualitativa CAPITULO, evidenciando a contagem dos principais capitulos exportados pelo Brasil. O resultado mostra que o capítulo 1.03(Fornecimento de alimentação e bebidas e serviços de hospedagem) é um dos principais itens exportados. 
cap <-table(CAPITULO)
barplot(cap,main="Capítulos mais negociados")

# Gráfico de dispersão: No gráfico abaixo estão representadas as variáveis quantitativas VALOR_USD e QTDE_VENDEDORES. Podemos observar dois pontos discrepantes na massa de dados. Para que possamos analisar mais criteriosamente esses dados, vamos normalizar os dados. Isso se mostra interessante, já que a distribuição das variáveis quantitativas dos dados tem média e desvio padrão significativamente diferentes, como podemos verificar nos resultados abaixo.

# Média das exportações(USD):
mean(VALOR_USD)

## [1] 9189688

# Desvio padrão das exportações(USD):
var(VALOR_USD)

## [1] 2.8e+16

# Média do número de exportadores:
mean(QTDE_VENDEDORES)

## [1] 32.7

# Desvio padrão dO número de exportadores:
var(QTDE_VENDEDORES)

## [1] 4337

plot(dados$QTDE_VENDEDORES,dados$VALOR_USD,xlab="# Exportadores",ylab="Valor Exportado(U$$)")

x <-dados %>% mutate(norm_valor=scale(VALOR_USD),norm_vend=scale(QTDE_VENDEDORES)) 

# Gráfico de dispersão dos dados Normalizados. No presente gráfico traçamos retas sobre o ponto médio(ponto de equilíbrio) da distribuição dos dados. Além disso, traçamos a reta de regressão para se ter uma ideia da relação entre as variáveis. Com as retas sobre o ponto de equilíbrio dos dados, conseguimos distinguir os quatro quadrantes em que os dados estão distribuídos. Marcamos os quadrantes para evidenciar as diferenças relativas entre os quadrantes. Em sentido anti-horário, por exemplo, temos que no primeiro quadrante(superiro à direita) temos o conjunto de dados que tem maior valor relativo de exportação e maior valor relativo de exportadores. Com essas regiões(quadrantes) demarcados, vamos explorar como os dados se comportam nessas regiões.
plot(x$norm_vend,x$norm_valor,xlim=c(-0.5,0.9),ylim=c(-0.15,0.5),xlab="# Exportadores_norm",ylab="Valor_norm",main="Gráfico dispersão dos dados normalizados")
text(-0.45,0.45,"+ Vendas",cex=0.7)
text(-0.45,0.42,"- Exportadores",cex=0.7)


text(0.65,0.45,"+ Vendas",cex=0.7)
text(0.65,0.42,"+ Exportadores",cex=0.7)


text(-0.45,-0.1,"- Vendas",cex=0.7)
text(-0.45,-0.13,"- Exportadores",cex=0.7)

text(0.65,-0.1,"- Vendas",cex=0.7)
text(0.65,-0.13,"+ Exportadores",cex=0.7)


abline(lm(x$norm_valor~x$norm_vend,data=x))

abline(v = 0)
abline(h = 0)

# Separando dados dos Quadrantes
Quadrante1<-subset(x,norm_vend > 0 & norm_valor > 0 )

Quadrante2<-subset(x,norm_vend < 0 & norm_valor > 0 )

Quadrante3<-subset(x,norm_vend< 0 & norm_valor < 0 )

Quadrante4<-subset(x,norm_vend > 0 & norm_valor < 0 )


# Histograma dos dados. Os histogramas mostram que histograma dos dados de todos os dados dos quadrantes tem assimetria à direita.
par(mfrow=c(2,2))

plot(Quadrante2$norm_vend,Quadrante2$norm_valor,xlab="",ylab="",main="Q2")
abline(lm(Quadrante2$norm_valor~Quadrante2$norm_vend,data=Quadrante2))

plot(Quadrante1$norm_vend,Quadrante1$norm_valor,xlab="",ylab="",main="Q1")
abline(lm(Quadrante1$norm_valor~Quadrante1$norm_vend,data=Quadrante1))

plot(Quadrante3$norm_vend,Quadrante3$norm_valor,xlab="",ylab="",main="Q3")
abline(lm(Quadrante3$norm_valor~Quadrante3$norm_vend,data=Quadrante3))

plot(Quadrante4$norm_vend,Quadrante4$norm_valor,xlab="",ylab="",main="Q4")
abline(lm(Quadrante4$norm_valor~Quadrante4$norm_vend,data=Quadrante4))

# cor(dados$VALOR_USD,dados$QTDE_VENDEDORES)
# 
# cap_Q1 <-Quadrante1 %>% group_by(CAPITULO)
# cor(cap_Q1$VALOR_USD,cap_Q1$QTDE_VENDEDORES)
# 
# 
# cap_Q2 <-Quadrante2 %>% group_by(CAPITULO)
# cor(cap_Q2$VALOR_USD,cap_Q2$QTDE_VENDEDORES)
# 
# cap_Q3 <-Quadrante3 %>% group_by(CAPITULO)
# cor(cap_Q3$VALOR_USD,cap_Q3$QTDE_VENDEDORES)
# 
# cap_Q4 <-Quadrante4 %>% group_by(CAPITULO)
# cor(cap_Q4$VALOR_USD,cap_Q4$QTDE_VENDEDORES)





par(mfrow=c(2,2))

 hist(Quadrante1$VALOR_USD,main="Hist.exportação 1º Q")
 hist(Quadrante2$VALOR_USD,main="Hist exportação 2º Q")
 hist(Quadrante3$VALOR_USD,main="Hist exportação 3º Q")
 hist(Quadrante4$VALOR_USD,main="Hist exportação 4º Q")

# Cálculo de Parâmetros

# 1-Valor total de exportação
total<-sum(dados$VALOR_USD)

# Gráfico de Box-Plot da variável BLOCO em relação aos quadrantes. Em geral, temos que o desvio interquartílico do bloco NAFTA é mais acentuado. Esse resultado está em linha com o esperado, já que como já comentado, nossas exportações tem como destino principal os Estados Unidos, país vinculado ao NAFTA.
par(mfrow=c(1,1))

plot(Quadrante1$VALOR_USD ~ Quadrante1$BLOCO,ylim=c(10000000,300000000),main="Box-Plot Blocos Q1")

plot(Quadrante2$VALOR_USD ~ Quadrante2$BLOCO,ylim=c(10000000,150000000),main="Box-Plot Blocos Q2")

plot(Quadrante3$VALOR_USD ~ Quadrante3$BLOCO,ylim=c(10000,4000000),main="Box-Plot Blocos Q3")

plot(Quadrante4$VALOR_USD ~ Quadrante4$BLOCO,ylim=c(100000,10000000),main="Box-Plot Blocos Q4")

# plot(Quadrante2$VALOR_USD ~ Quadrante2$CAPITULO)
# plot(Quadrante1$VALOR_USD ~ Quadrante1$CAPITULO)
# plot(Quadrante3$VALOR_USD ~ Quadrante3$CAPITULO)
# plot(Quadrante4$VALOR_USD ~ Quadrante4$CAPITULO)
# 




# # Cap 1.09: Serviços financeiros 
# soma_q1<-sum(cap_Q1$VALOR_USD)
# cap_Q1 <- cap_Q1 %>% mutate(valor_per=VALOR_USD/ soma_q1)
# cap_max_q1 <- cap_Q1 %>% filter(valor_per==max(cap_Q1$valor_per)) %>% select(CAPITULO,valor_per)
# cap_max_q1
#                                         
# 
# #Cap 1.08:Serviços de transmissão e distribuição de eletricidade; serviços de
# # distribuição de gás e água
# soma_q2<-sum(cap_Q2$VALOR_USD)
# cap_Q2 <- cap_Q2 %>% mutate(valor_per=VALOR_USD/ soma_q2)
# cap_max_q2 <- cap_Q2 %>% filter(valor_per==max(cap_Q2$valor_per)) %>% select(CAPITULO,valor_per)
# cap_max_q2
# 
# 
# # Cap 1.14: Outros serviços profissionais
# soma_q3<-sum(cap_Q3$VALOR_USD)
# cap_Q3 <- cap_Q3 %>% mutate(valor_per=VALOR_USD/ soma_q3)
# cap_max_q3 <- cap_Q3 %>% filter(valor_per==max(cap_Q3$valor_per)) %>% select(CAPITULO,valor_per)
# cap_max_q3
# 
# # Cap 1.18:Serviços de apoio às atividades empresariais
# soma_q4<-sum(cap_Q4$VALOR_USD)
# cap_Q4 <- cap_Q4 %>% mutate(valor_per=VALOR_USD/ soma_q4)
# cap_max_q4 <- cap_Q4 %>% filter(valor_per==max(cap_Q4$valor_per)) %>% select(CAPITULO,valor_per)
# cap_max_q4
#

Dados amostra

Com base em uma amostra aleatória estatificada proporcional, utilizamos os blocos econômicos como estratos para selecionar os dados.

# Sumário dos dados relativos aos Blocos
summary(dados$BLOCO)

##   ANDINO MERCOSUL    NAFTA   OUTROS     U.E. 
##      193      190      209     1805      850

# Porcentagem de dados referente ao bloco Pacto Andino
P1<-193/length(dados$BLOCO)
P1

## [1] 0.0594

# Porcentagem de dados referente ao bloco Mercosul
P2<-190/length(dados$BLOCO)
P2

## [1] 0.0585

# Porcentagem de dados referente ao bloco Nafta
P3<-209/length(dados$BLOCO)
P3

## [1] 0.0644

# Porcentagem de dados referente ao bloco União Europeia
P4<-850/length(dados$BLOCO)
P4

## [1] 0.262

# Porcentagem de dados referente a OUTROS
P5<-1805/length(dados$BLOCO)
P5

## [1] 0.556

P1+P2+P3+P4+P5

## [1] 1

set.seed(1234)

# Amostragem de dados do 1º Quadrante
# Quantidade de elementos da amostra relativo ao 1º Quadrante
#num_Q1_amostra<-round(P1*length(Quadrante1$PAIS))
num_ANDINO<-round(P1*193)
num_ANDINO

## [1] 11

#num_Q2_amostra<-round(P2*length(Quadrante2$PAIS))
num_MERCOSUL<-round(P2*190)
num_MERCOSUL

## [1] 11

#num_Q3_amostra<-round(P3*length(Quadrante3$PAIS))
num_NAFTA<-round(P3*209)
num_NAFTA

## [1] 13

#num_Q4_amostra<-round(P4*length(Quadrante4$PAIS))
num_OUTROS<-round(P4*1805)
num_OUTROS

## [1] 473

#num_Q4_amostra<-round(P4*length(Quadrante4$PAIS))
num_UE<-round(P4*850)
num_UE

## [1] 223

DADOS_ANDINO<-subset(x,BLOCO=="ANDINO")

DADOS_MERCOSUL<-subset(x,BLOCO=="MERCOSUL")

DADOS_UE<-subset(x,BLOCO=="U.E.")

DADOS_OUTROS<-subset(x,BLOCO=="OUTROS")

DADOS_NAFTA<-subset(x,BLOCO=="NAFTA")


# Retirando amostra aleatória estratificada proporcional 
#Quadrante1<-sample_n(dados$BLOCO,num_Q1_amostra,replace=FALSE)
amostra_ANDINO<-sample_n(DADOS_ANDINO,num_ANDINO,replace=FALSE)
#Quadrante2<-sample_n(Quadrante2,num_Q2_amostra,replace=FALSE)
amostra_MERCOSUL<-sample_n(DADOS_MERCOSUL,num_MERCOSUL,replace=FALSE)

#Quadrante3<-sample_n(Quadrante3,num_Q3_amostra,replace=FALSE)
amostra_NAFTA<-sample_n(DADOS_NAFTA,num_NAFTA,replace=FALSE)

#Quadrante4<-sample_n(Quadrante4,num_Q4_amostra,replace=FALSE)
amostra_OUTROS<-sample_n(DADOS_OUTROS,num_OUTROS,replace=FALSE)

#Quadrante4<-sample_n(Quadrante4,num_Q4_amostra,replace=FALSE)
amostra_UE<-sample_n(DADOS_UE,num_UE,replace=FALSE)




# par(mfrow=c(2,2))
# 
# plot(Quadrante2$norm_vend,Quadrante2$norm_valor)
# abline(lm(Quadrante2$norm_valor~Quadrante2$norm_vend,data=Quadrante2))
# 
# plot(Quadrante1$norm_vend,Quadrante1$norm_valor)
# abline(lm(Quadrante1$norm_valor~Quadrante1$norm_vend,data=Quadrante1))
# 
# plot(amostra_NAFTA$norm_vend,amostra_NAFTA$norm_valor)
# abline(lm(amostra_NAFTA$norm_valor~Quadrante3$norm_vend,data=Quadrante3))
# 
# plot(Quadrante4$norm_vend,Quadrante4$norm_valor)
# abline(lm(Quadrante4$norm_valor~Quadrante4$norm_vend,data=Quadrante4))
# 
# 
# cor(dados$VALOR_USD,dados$QTDE_VENDEDORES)
# 
# cap_Q1 <-Quadrante1 %>% group_by(CAPITULO)
# cor(cap_Q1$VALOR_USD,cap_Q1$QTDE_VENDEDORES)
# 
# 
# cap_Q2 <-Quadrante2 %>% group_by(CAPITULO)
# cor(cap_Q2$VALOR_USD,cap_Q2$QTDE_VENDEDORES)
# 
# cap_Q3 <-Quadrante3 %>% group_by(CAPITULO)
# cor(cap_Q3$VALOR_USD,cap_Q3$QTDE_VENDEDORES)
# 
# cap_Q4 <-Quadrante4 %>% group_by(CAPITULO)
# cor(cap_Q4$VALOR_USD,cap_Q4$QTDE_VENDEDORES)
# 


# Com

par(mfrow=c(2,2))

 hist(amostra_ANDINO$VALOR_USD,main="Hist.exportação 1º Q")
 hist(amostra_MERCOSUL$VALOR_USD,main="Hist exportação 2º Q")
 hist(amostra_NAFTA$VALOR_USD,main="Hist exportação 3º Q")
 hist(amostra_OUTROS$VALOR_USD,main="Hist exportação 4º Q")

# Cálculo de Parâmetros

# # 1-Valor total de exportação
# total<-sum(dados$VALOR_USD)
# 
# 
# par(mfrow=c(1,1))
# 
# plot(Quadrante1$VALOR_USD ~ Quadrante1$BLOCO,main="Box-Plot Blocos Q1")
# 
# plot(Quadrante2$VALOR_USD ~ Quadrante2$BLOCO,main="Box-Plot Blocos Q2")
# plot(Quadrante3$VALOR_USD ~ Quadrante3$BLOCO,main="Box-Plot Blocos Q3")
# plot(Quadrante4$VALOR_USD ~ Quadrante4$BLOCO,main="Box-Plot Blocos Q4")




# # Cap 1.14: Outros serviços profissionais 
# soma_q1<-sum(cap_Q1$VALOR_USD)
# cap_Q1 <- cap_Q1 %>% mutate(valor_per=VALOR_USD/ soma_q1)
# cap_max_q1 <- cap_Q1 %>% filter(valor_per==max(cap_Q1$valor_per)) %>% select(CAPITULO,valor_per)
# cap_max_q1
#                                         
# 
# #Cap 1.15:Serviços de tecnologia da informação
# soma_q2<-sum(cap_Q2$VALOR_USD)
# cap_Q2 <- cap_Q2 %>% mutate(valor_per=VALOR_USD/ soma_q2)
# cap_max_q2 <- cap_Q2 %>% filter(valor_per==max(cap_Q2$valor_per)) %>% select(CAPITULO,valor_per)
# cap_max_q2
# 
# 
# # Cap 1.14: Outros serviços profissionais
# soma_q3<-sum(cap_Q3$VALOR_USD)
# cap_Q3 <- cap_Q3 %>% mutate(valor_per=VALOR_USD/ soma_q3)
# cap_max_q3 <- cap_Q3 %>% filter(valor_per==max(cap_Q3$valor_per)) %>% select(CAPITULO,valor_per)
# cap_max_q3
# 
# # Cap 1.09:Serviços financeiros
# soma_q4<-sum(cap_Q4$VALOR_USD)
# cap_Q4 <- cap_Q4 %>% mutate(valor_per=VALOR_USD/ soma_q4)
# cap_max_q4 <- cap_Q4 %>% filter(valor_per==max(cap_Q4$valor_per)) %>% select(CAPITULO,valor_per)
# cap_max_q4
#

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.

Trabalho Exploratória

Ricardo Felippe Ramos

14 de novembro de 2018

Dados Exportação de Serviços em 2017

Dados amostra