1)INTRODUÇÃO: ASPECTOS BÁSICOS DO R.
2)ESTATÍSTICAS DESCRITIVAS.
3)ANÁLISE GRÁFICA.
4)IMPORTAÇÃO E “LIMPEZA” DE DADOS.
5)LENDO DADOS DO BANCO CENTRAL.
26/10/2021
1)INTRODUÇÃO: ASPECTOS BÁSICOS DO R.
2)ESTATÍSTICAS DESCRITIVAS.
3)ANÁLISE GRÁFICA.
4)IMPORTAÇÃO E “LIMPEZA” DE DADOS.
5)LENDO DADOS DO BANCO CENTRAL.
Primeiramente copie e instale o R (https://cran.r-project.org/bin/windows/base/) e o R Studio (https://rstudio.com/products/rstudio/download/).
Após a instalação, abra o R studio, perceba que ele tem 4 quadrantes.
Este software é poderoso para análise de dados e gratuito. O seu funcionamento ocorre através de comandos.
Para instalar novos pacotes no R utilizaremos o comando install.packages(“nomedopacote”), em seguida para lermos o pacote usamos o library(nomedopacote) .
Dados que utilizaremos: (https://drive.google.com/drive/folders/1x3FMTg9sgj5e8ncoxS_MI_wTm_7eACL-?usp=sharing).
#install.packages("ggplot2")
#install.packages("plotly")
#install.packages("readxl")
#install.packages("BETS")
#install.packages("dplyr")
library(ggplot2)
library(plotly)
library(readxl)
library(BETS)
library(dplyr)
# Soma + 8+2
## [1] 10
#Subtração - 8-2
## [1] 6
#Multiplicação * 8*2
## [1] 16
#Divisão / 8/2
## [1] 4
#Exponencial ^ ou ** 2^3
## [1] 8
# Vetores
notas_a<-c(9,8,7,4,5)
notas_b<-c(7,6,8,5,7)
nomes<-c("Beatriz", "Joana", "Pedro", "Enzo", "Alfredo")
# Dataframe
dados<-data.frame(notas_a, notas_b, nomes)
Adionaremos agora uma variável à base de dados que criamos.
O novo indicador corresponde a média das duas notas.
dados$notas_c<-(dados$notas_a+ dados$notas_b)/2
\[\bar{x}=\frac{\sum x_i}{n} \]
# Média mean(notas_a)
## [1] 6.6
mean(dados$notas_a)
## [1] 6.6
Organize os dados de forma crescente.
Para um número ímpar de observações, a mediana é o valor intermediário.
Para um número par de observações, a mediana é a média dos dois valores intermediários.
median(dados$notas_a)
## [1] 7
quantile(notas_a, c(.25, .5))
## 25% 50% ## 5 7
Variância é uma medida da variabilidade que utiliza todos os dados. Seu cálculo se baseia nos desvios em torno da média ao quadrado. A medida da variância é expressa na unidade de medida original ao quadrado.
O Desvio Padrão é definido como a raiz quadrada da variância.
As fórmulas abaixo se referem respectivamente à variância e ao desvio padrão amostral.
\[s^2=\frac{\sum (x_i-\bar{x})^2}{n-1} \]
\[s=\sqrt{s^2}=\sqrt{\frac{\sum (x_i-\bar{x})^2}{n-1}} \]
# variância var(notas_a)
## [1] 4.3
# desvio-padrão sd(notas_a)
## [1] 2.073644
\(r_{xy}\) é o coeficiente de correlação (amostral) de Pearson.
\(s_{xy}\) é a covariância da amostra.
\(s_x\) é o desvio padrão de x e \(s_y\) é o desvio padrão de y.
cor(notas_a,notas_b)
## [1] 0.4441027
| Tipo do gráfico | complento do comando ggplot |
|---|---|
| Linha (série) | geom_line() |
| Dispersão | geom_point() |
| Barra | geom_bar() |
| Box Plot | geom_boxplot() |
| Histrograma | geom_histogram() |
| Densidade | geom_density() |
graf_a<-ggplot (data=dados, aes( y=notas_a,x=nomes ))+ geom_bar (stat="identity") graf_a
ggplot (data=dados, aes( y=notas_a,x=nomes ))+ geom_bar (stat="identity", width=0.3)
ggplot(dados, aes(x=notas_a, y=reorder(nomes, notas_a))) + geom_segment(aes(yend=nomes), xend=0, colour="grey50") + geom_point(size=3 )
graf_b<-ggplot(dados, aes(x= notas_a, y= notas_b ))+ geom_point() graf_b
ggplot(dados, aes(notas_a))+ geom_boxplot()
dados_atlas <- read_excel("D:/dados/dados_atlas.xls")
# Estatísticas Descritivas summary(dados_atlas)
## cod mun exp pobreza ## Min. :1100015 Length:5565 Min. :65.30 Min. : 0.19 ## 1st Qu.:2512101 Class :character 1st Qu.:71.15 1st Qu.: 7.03 ## Median :3146206 Mode :character Median :73.47 Median :18.15 ## Mean :3253053 Mean :73.09 Mean :23.21 ## 3rd Qu.:4119004 3rd Qu.:75.16 3rd Qu.:38.52 ## Max. :5300108 Max. :78.64 Max. :78.59 ## NA's :2 ## macro_reg ## Length:5565 ## Class :character ## Mode :character ## ## ## ##
dados_atlas<-na.omit(dados_atlas)
dados_atlas<-dados_atlas[order(dados_atlas$pobreza),]
cor(dados_atlas$exp,dados_atlas$pobreza)
## [1] -0.821901
atlas_exp<-select(dados_atlas, cod, exp, mun)
atlas_Nordeste<-filter(dados_atlas, macro_reg=="Nordeste")
atlas_Nordeste<-rename(atlas_Nordeste, exp_vida=exp)
rm(atlas_Nordeste)
g1<-ggplot(dados_atlas, aes(x= pobreza, y= exp, label=mun,
colour=macro_reg))+ geom_point()
g1
ggplotly(g1)
g2<-ggplot(dados_atlas, aes(pobreza, fill=macro_reg))+ geom_histogram() g2
Vamos agora utilizar um pacote para obtenção de dados do Banco Central.
Abriremos a série da taxa de câmbio. Os dados estão disponíveis na base do BC (https://www3.bcb.gov.br/sgspub/localizarseries/localizarSeries.do?method=prepararTelaLocalizarSeries).
Essa é a taxa de câmbio comercial, considerando o dólar dos EUA.
e<- BETSget(1, from='1995-01-01', data.frame=T)
## Warning: ## BETS-package: There is no corresponding entry in the metadata table. ## ## Don't worry, this is not a critical problem. We are working on a solution.
p<-ggplot(e, aes(date, value))+ geom_line(size=.8)+
xlab('')+ylab('Unidade')+labs(title='Taxa de Câmbio')
p
ggplotly(p)
Fazer um gráfico boxplot com a variável pobreza da base de dados dados_atlas, considerando em uma única figura as 5 macrorregiões do Brasil.
Coletar o saldo da balança comercial- mercadorias em geral, a partir do ano 2000 (código 23470). Desenhar um gráfico da série.
Coletar exportações (código 23468) e importações (código 23469) e criar o saldo (subtração dos dois). Faça um gráfico de barras.
Importar dados do arquivo PIB que contém o PIB per capita dos estados no ano 2011. Fazer estatísticas descritivas e um gráfico de barras com título.
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e Economia. 2ªed. São Paulo: Cengage Learning, 2011.
KABCOFF, R. R IN ACTION: Data analysis and graphics with R. 2ªed. NY: Manning Publications Co., 2015.