Principais conceitos de importação e manipulação de dados no R

a) Importação de dados

- Função: read_xlsx()

Função utilizada para importação de planilha de Excel.

Exemplo:

library(readxl)

planilha <- read_xlsx(path = “dados_planilha.xlsx”)

- Função readr: read_delim()

Função utilizada para importação de dados em *.csv.

Exemplo:

library(readr)

planilha <- read_delim(file = aba_planilha.csv’, delim = ‘;’)

- Função googlesheets4: read_sheet()

Função utilizada para importação de dados de planilhas do Google.

Exemplo:

library(googlesheets4)

planilha <- read_sheet(“https://docs.google.com/link_da_planilha”)

- Explicação dos argumentos: path, file, delim, ss

  • path : demonstra o caminho do arquivo para funções.
  • file : nomeia o arquivo a ser utilizado.
  • delim: caracter que delimita os dados em um arquivo (vírgula, ponto, etc).
  • ss : Indica o ID ou URL da planilha do Google.

b) Combinação de tabelas

- Funções rbind() e cbind()

rbind()

Empilhas as linhas de diferentes tabelas.

Exemplo

tabela_final <- rbind(tabelax, tabelay)

cbind()

Utilizada para concatenar as colunas de diferentes tabelas.

Exemplo

tabela_pronta <- cbind(tabelax, tabelay)

c) Estrutura e dimensões dos dados

 - `ncol()`, `nrow()`, `dim()`, `head()`, `tail()`, `str()`
 
  • ncol(): Quantas colunas (variáveis) a tabela possui.
  • nrow(): Quantas linhas (observações) a tabela possui.
  • dim() : Dimensão da tabela (linha, coluna).
  • head(): Colar no console as primeiras informações da tabela.
  • tail(): Colar no console as últimas informações da tabela .
  • str() : Noção geral (resumo) sobre as variáveis da tabela.

d) Seleção e subconjuntos

 - Exemplos de seleção por nome e índice de colunas e linhas

Seleção: nome_planilha$nome_coluna

Subconjunto de elementos de uma tabela: nome_do_objeto[número de linhas, número de colunas]

Selecionando todos os valores de uma coluna: nome_planilha[,5]

Selecionando todos os valores de uma linha: nome_planilha[5,]

e) Funções estatísticas básicas

 - `min()`, `max()`, `mean()`, `sd()`, `median()`, `round()`
 
  • min() : Menor valor da amostra (Ex: min(nome_planilha[,16]))
  • max() : Maior valor da amostra (Ex: max(nome_planilha[,10]))
  • mean() : Média de valores da amostra (Ex: mean(nome_planilha$coluna1)
  • sd() : Desvio padrão da amostra (Ex: sd(nome_planilha$coluna2)
  • median() : Mediana de valores da amostra (Ex: median(nome_planilha$coluna3)
  • round() : Arredonda valores (Ex: round(235.5467, digits = 2))

f) Comparações lógicas

  • class(), Sys.Date()

class: Classe do objeto (Ex: class(10))

Sys.Date(): Data atual (EX: class(Sys.Date()))

  • Operadores >, <, ==, !=, >=, <=, %in%, !

> : maior que

< : menor que

== : igual a

!= : diferente de

>= : maior ou igual a

<= : menor ou igual a

%in% : verifica se valor está em um vetor

! : negação

Exemplos:

class(20)

Sys.Date()

class(Sys.Date())

class(TRUE)

class(FALSE)

x <- 20 class(x)

x > 20

x == 20

x < 20

x <= 20

x >= 20

x != 20

x %in% c(19,20,21)

g) Operadores compostos

- Regra do E (&)

Ambas condições são verdadeiras.

Exemplo: exemplo1 <- exemplo1[exemplo1\(id_municipio == 'Itabira' & exemplo1\)ano == 2021,].

- Regra do OU (|)

Ao menos uma condição é verdadeira.

Exemplo: exemplo2 <- exemplo2[exemplo2\(id_municipio == 'Itabira' | exemplo1\)ano == 2021,].