Principais conceitos de importação e manipulação de dados no R
a) Importação de dados
- Função: read_xlsx()
Função utilizada para importação de planilha de Excel.
Exemplo:
library(readxl)
planilha <- read_xlsx(path = “dados_planilha.xlsx”)
- Função readr: read_delim()
Função utilizada para importação de dados em *.csv.
Exemplo:
library(readr)
planilha <- read_delim(file = aba_planilha.csv’, delim = ‘;’)
- Função googlesheets4: read_sheet()
Função utilizada para importação de dados de planilhas do Google.
Exemplo:
library(googlesheets4)
planilha <- read_sheet(“https://docs.google.com/link_da_planilha”)
- Explicação dos argumentos: path, file,
delim, ss
- path : demonstra o caminho do arquivo para funções.
- file : nomeia o arquivo a ser utilizado.
- delim: caracter que delimita os dados em um arquivo (vírgula, ponto,
etc).
- ss : Indica o ID ou URL da planilha do Google.
b) Combinação de tabelas
- Funções rbind() e cbind()
rbind()
Empilhas as linhas de diferentes tabelas.
Exemplo
tabela_final <- rbind(tabelax, tabelay)
cbind()
Utilizada para concatenar as colunas de diferentes tabelas.
Exemplo
tabela_pronta <- cbind(tabelax, tabelay)
c) Estrutura e dimensões dos dados
- `ncol()`, `nrow()`, `dim()`, `head()`, `tail()`, `str()`
ncol(): Quantas colunas (variáveis) a tabela possui.
nrow(): Quantas linhas (observações) a tabela possui.
dim(): Dimensão da tabela (linha, coluna).
head(): Colar no console as primeiras informações da tabela.
tail(): Colar no console as últimas informações da tabela .
str(): Noção geral (resumo) sobre as variáveis da tabela.
d) Seleção e subconjuntos
- Exemplos de seleção por nome e índice de colunas e linhas
Seleção: nome_planilha$nome_coluna
Subconjunto de elementos de uma tabela: nome_do_objeto[número de linhas, número de colunas]
Selecionando todos os valores de uma coluna: nome_planilha[,5]
Selecionando todos os valores de uma linha: nome_planilha[5,]
e) Funções estatísticas básicas
- `min()`, `max()`, `mean()`, `sd()`, `median()`, `round()`
min(): Menor valor da amostra (Ex: min(nome_planilha[,16]))max(): Maior valor da amostra (Ex: max(nome_planilha[,10]))mean(): Média de valores da amostra (Ex: mean(nome_planilha$coluna1)sd(): Desvio padrão da amostra (Ex: sd(nome_planilha$coluna2)median(): Mediana de valores da amostra (Ex: median(nome_planilha$coluna3)round(): Arredonda valores (Ex: round(235.5467, digits = 2))
f) Comparações lógicas
class(),Sys.Date()
class: Classe do objeto (Ex: class(10))
Sys.Date(): Data atual (EX: class(Sys.Date()))
- Operadores
>,<,==,!=,>=,<=,%in%,!
> : maior que
< : menor que
== : igual a
!= : diferente de
>= : maior ou igual a
<= : menor ou igual a
%in% : verifica se valor está em um vetor
! : negação
Exemplos:
class(20)
Sys.Date()
class(Sys.Date())
class(TRUE)
class(FALSE)
x <- 20 class(x)
x > 20
x == 20
x < 20
x <= 20
x >= 20
x != 20
x %in% c(19,20,21)
g) Operadores compostos
- Regra do E (&)
Ambas condições são verdadeiras.
Exemplo: exemplo1 <- exemplo1[exemplo1\(id_municipio == 'Itabira' & exemplo1\)ano == 2021,].
- Regra do OU (|)
Ao menos uma condição é verdadeira.
Exemplo: exemplo2 <- exemplo2[exemplo2\(id_municipio == 'Itabira' | exemplo1\)ano == 2021,].