ATIVIDADE 04 - IMPORTAÇÃO E MANIPULAÇÃO DE DADOS NO R

1. Importação de dados

A importação de dados é o processo de trazer informações de fontes externas, como por exemplo de arquivos Excel e planilhas do Google, para o ambiente do R.

Existem pacotes diferentes conforme o tipo e a origem do arquivo:

  • readxl: função read_xlsx()

É usada para importar planilhas do Excel (.xlsx).

Argumento:

path: indica o caminho onde o arquivo está salvo no computador.

Exemplo:

library(readxl)
planilha_1 <- read_xlsx(path = "C:/Documentos/projetos_r/dados.xlsx")
  • readr: função read_delim()

Permite importar arquivos de texto com delimitadores, como por exemplo arquivos CSV.

Argumentos:

file: indica o caminho onde o arquivo está salvo .

delim: define o caractere que separa as colunas (por exemplo: “,” ou “;”).

Exemplo:

library(readr)
planilha_2 <- read_delim(file = "C:/Documentos/projetos_r/dados.csv", delim = ",")
  • googlesheets4: função read_sheet()

Permite importar dados diretamente de planilhas do Google Sheets.

Argumento:

ss: endereço (url) da planilha no Google Sheets.

Exemplo:

library(googlesheets4)
planilha_3 <- read_sheet(ss = "https://docs.google.com/spreadsheets/d/ID_DA_PLANILHA")

2. Combinação de tabelas

  • Função rbind(): Usada para unir tabelas, empilhando linhas uma embaixo da outra

  • Função cbind(): Usada para unir tabelas, empilhando colunas uma ao lado da outra


3. Estrutura e dimensões dos dados

  • Função ncol(): Retorna quantas colunas existem em um objeto.

  • Função nrow(): Retorna quantas linhas existem em um objeto.

  • Função dim(): Retorna o número de linhas e colunas de um objeto.

  • Função head(): Mostra as primeiras informações de um objeto.

  • Função tail(): Mostra as últimas informações de um objeto.

  • Funçãostr(): Exibe a estrutura interna de uma objeto, fornecendo um resumo sobre o tipo de objeto, número de observações, variáveis e o tipo de dados de cada coluna.


4. Seleção e subconjuntos

Podemos selecionar partes específicas do conjunto de dados por nome ou por índice. Essas operações são úteis quando queremos visualizar ou manipular apenas uma parte do banco de dados.

Estrutura:

nome_objeto[linha(s)_filtrada(s), coluna(s)_selecionada(s)]

Exemplos:

plhanilha_1[1,5] # Selecionando o primeiro valor da quinta coluna
planilha_1[1:20, 5] # Selecionando os 20 primeiros valores da quinta coluna
planilha_1[1:5, 5:8] # Selecionando os 5 primeiros valores das colunas 5 à 8
planilha_1[,5] # Selecionando todos os valores da coluna 5
planilha_1[5,] # Selecionando todos os valores da linha 5
planilha_1[1:10, "idade"] # Selecionando os 10 primeiros valores da coluna “idade” 

5. Funções estatísticas básicas

  • Função min(): Retorna o menor valor de um conjunto de dados.

  • Função max(): Retorna o maior valor de um conjunto de dados.

  • Função mean(): Calcula a média de um conjunto de dados.

  • Função sd(): Calcula o desvio padrão de um conjunto de dados.

  • Função median(): Calcula a mediana de um conjunto de dados (valor central de um conjunto de dados ordenado).

  • Função round(): Arredonda valores numéricos para um número definido de casas decimais.


6. Comparações lógicas

  • Função class(): Mostra a classe (tipo) de uma variável.

  • Função Sys.Date(): Retorna a data atual do sistema.

Operadores:

> (maior que): Usado para comparar se um valor é maior que outro.

< (menor que): Usado para comparar se um valor é menor que outro.

== (igual a): Verifica se dois valores são iguais.

!= (diferente de): Verifica se dois valores são diferentes.

>= (maior ou igual a): Usado para comparar se um valor é maior ou igual a outro.

<= (menor ou igual a): Usado para comparar se um valor é menor ou igual a outro.

%in% (pertence a): Verifica se determinado elemento pertence a um conjunto.

! (negação): Inverte o valor lógico (TRUE vira FALSE e vce-versa).


7. Operadores compostos

Os operadores compostos são usados quando queremos testar duas ou mais condições ao mesmo tempo, ajudando a filtrar informações de forma mais precisa.

  • Regra do E (&):

O operador E implica que todas as condições precisam ser verdadeiras para que o resultado seja considerado verdadeiro. Em outras palavras, serão apresentados apenas os casos que atendem a todas as condições definidas.

  • Regra do OU (|):

No caso do operador OU basta que uma das condições seja verdadeira para o resultado ser considerado verdadeiro. O que significa dizer que serão apresentados os casos quem atendam a pelo menos uma das condições.