Principais conceitos de importação e manipulação de dados no R

a) Importação de dados

- Função: `read_xlsx()`

Função utilizada para importação de planilha de Excel.

Exemplo:

library(readxl)

planilha <- read_xlsx(path = “dados_planilha.xlsx”)

- Função readr: `read_delim()`

Função utilizada para importação de dados em *.csv.

Exemplo:

library(readr)

planilha <- read_delim(file = aba_planilha.csv’, delim = ‘;’)

- Função googlesheets4: `read_sheet()`

Função utilizada para importação de dados de planilhas do Google.

Exemplo:

library(googlesheets4)

planilha <- read_sheet(“https://docs.google.com/link_da_planilha”)

- Explicação dos argumentos: `path`, `file`, `delim`, `ss`

path : demonstra o caminho do arquivo para funções.
file : nomeia o arquivo a ser utilizado.
delim: caracter que delimita os dados em um arquivo (vírgula, ponto, etc).
ss : Indica o ID ou URL da planilha do Google.

b) Combinação de tabelas

- Funções `rbind()` e `cbind()`

rbind()

Empilhas as linhas de diferentes tabelas.

Exemplo

tabela_final <- rbind(tabelax, tabelay)

cbind()

Utilizada para concatenar as colunas de diferentes tabelas.

Exemplo

tabela_pronta <- cbind(tabelax, tabelay)

c) Estrutura e dimensões dos dados

 - `ncol()`, `nrow()`, `dim()`, `head()`, `tail()`, `str()`

ncol(): Quantas colunas (variáveis) a tabela possui.
nrow(): Quantas linhas (observações) a tabela possui.
dim() : Dimensão da tabela (linha, coluna).
head(): Colar no console as primeiras informações da tabela.
tail(): Colar no console as últimas informações da tabela .
str() : Noção geral (resumo) sobre as variáveis da tabela.

d) Seleção e subconjuntos

 - Exemplos de seleção por nome e índice de colunas e linhas

Seleção: nome_planilha$nome_coluna

Subconjunto de elementos de uma tabela: nome_do_objeto[número de linhas, número de colunas]

Selecionando todos os valores de uma coluna: nome_planilha[,5]

Selecionando todos os valores de uma linha: nome_planilha[5,]

e) Funções estatísticas básicas

 - `min()`, `max()`, `mean()`, `sd()`, `median()`, `round()`

min() : Menor valor da amostra (Ex: min(nome_planilha[,16]))
max() : Maior valor da amostra (Ex: max(nome_planilha[,10]))
mean() : Média de valores da amostra (Ex: mean(nome_planilha$coluna1)
sd() : Desvio padrão da amostra (Ex: sd(nome_planilha$coluna2)
median() : Mediana de valores da amostra (Ex: median(nome_planilha$coluna3)
round() : Arredonda valores (Ex: round(235.5467, digits = 2))

f) Comparações lógicas

class(), Sys.Date()

class: Classe do objeto (Ex: class(10))

Sys.Date(): Data atual (EX: class(Sys.Date()))

Operadores >, <, ==, !=, >=, <=, %in%, !

> : maior que

< : menor que

== : igual a

!= : diferente de

>= : maior ou igual a

<= : menor ou igual a

%in% : verifica se valor está em um vetor

! : negação

Exemplos:

class(20)

Sys.Date()

class(Sys.Date())

class(TRUE)

class(FALSE)

x <- 20 class(x)

x > 20

x == 20

x < 20

x <= 20

x >= 20

x != 20

x %in% c(19,20,21)

g) Operadores compostos

- Regra do E (`&`)

Ambas condições são verdadeiras.

Exemplo: exemplo1 <- exemplo1[exemplo1$id_municipio == 'Itabira' & exemplo1$ano == 2021,].

- Regra do OU (`|`)

Ao menos uma condição é verdadeira.

Exemplo: exemplo2 <- exemplo2[exemplo2$id_municipio == 'Itabira' | exemplo1$ano == 2021,].

Principais conceitos de importação e manipulação de dados no R