1 Introdução

Este relatório apresenta os principais conceitos sobre importação e manipulação de dados no R, descrevendo o funcionamento das principais funções utilizadas em cada etapa do processo. Cada função é acompanhada de explicação de seus argumentos e exemplos práticos em código.


2 Importação de Dados

A importação de dados é o primeiro passo em qualquer análise. No R, existem diversas bibliotecas que facilitam a leitura de diferentes tipos de arquivos. As mais utilizadas são readxl, readr e googlesheets4.

2.1 Função read_xlsx() – Pacote readxl

A função read_xlsx() é usada para importar planilhas do Excel no formato .xlsx diretamente para o R, criando um objeto data.frame ou tibble.

Argumento Descrição
path Caminho (diretório) do arquivo .xlsx que será importado. Pode ser absoluto ou relativo.
sheet Nome ou índice da aba da planilha que será lida. Padrão: primeira aba.
range Intervalo de células a serem lidas (exemplo: "A1:C10").
col_types Define manualmente o tipo de cada coluna (exemplo: "text", "numeric", "date").

Exemplos de uso:

Instalação e carregamento do pacote:

install.packages("readxl")
library(readxl)

Importando uma planilha Excel:

dados_excel <- read_xlsx(path = "dados.xlsx", sheet = 1)

Exibindo as 6 primeiras linhas:

head(dados_excel)

2.2 Função read_delim() – Pacote readr

A função read_delim() é utilizada para importar arquivos de texto delimitados, como .csv ou .txt. É uma das funções mais flexíveis da família readr, pois permite definir qualquer tipo de delimitador.

Principais argumentos

Argumento Descrição
file Caminho e nome do arquivo a ser lido.
delim Caractere usado para separar as colunas (exemplo: ",", ";", "\t").
col_types Define o tipo de cada coluna, caso necessário.
locale Permite configurar encoding, formato decimal, separador de milhar, etc.

Exemplos de uso:

install.packages("readr")
library(readr)

Leitura de um arquivo CSV separado por vírgula:

dados_csv <- read_delim(file = "dados.csv", delim = ",")

Visualização inicial dos dados:

head(dados_csv)

2.3 Função read_sheet() – Pacote googlesheets4

A função read_sheet() permite importar dados diretamente de uma planilha hospedada no Google Sheets sem precisar baixar o arquivo.

Argumento Descrição
ss URL completa ou ID da planilha no Google Sheets.
sheet Nome ou índice da aba que será importada.
range Intervalo de células a serem lidas (exemplo: "A1:D20").

Exemplos de uso:

install.packages("googlesheets4")
library(googlesheets4)

Autenticação (necessária apenas na primeira vez):

gs4_auth()

Leitura da planilha:

 dados_gs <- read_sheet(ss = "[https://docs.google.com/spreadsheets/d/SEU_ID_AQUI](https://docs.google.com/spreadsheets/d/SEU_ID_AQUI)", sheet = "Página1")

3 Combinação de Tabelas

3.1 Função rbind()

A função rbind() é usada para empilhar linhas de dois ou mais data frames que possuem as mesmas colunas.

Exemplo:

tabela1 <- data.frame(id = 1:2, nome = c("A", "B"))
tabela2 <- data.frame(id = 3:4, nome = c("C", "D"))

Combina verticalmente (empilha):

tabelas_unidas <- rbind(tabela1, tabela2)
tabelas_unidas

Função cbind()

A função cbind() é usada para juntar colunas de dois data frames com o mesmo número de linhas.

Exemplo:

dados1 <- data.frame(a = 1:3)
dados2 <- data.frame(b = c("X", "Y", "Z"))

Combina lado a lado:

dados_combinados <- cbind(dados1, dados2)
dados_combinados

4 Estrutura e Dimensões dos Dados

Essas funções permitem verificar o tamanho, a estrutura e uma prévia dos dados em um data frame.

Função Descrição
ncol() Retorna o número de colunas
nrow() Retorna o número de linhas
dim() Mostra dimensões (linhas, colunas)
head() Mostra as primeiras linhas
tail() Mostra as últimas linhas
str() Exibe a estrutura interna (tipos de variáveis, etc.)

Exemplo:

df <- mtcars

ncol(df)
nrow(df)
dim(df)
head(df, 5)
tail(df, 3)
str(df)

5 Seleção e Subconjuntos

Permitem acessar partes específicas dos dados, selecionando colunas e linhas por nome, posição ou condição lógica.

Exemplos:

Seleção por nome:

df$mpg
df[["hp"]]

Seleção por índice:

df[1:5, 1:3]     # primeiras 5 linhas, 3 primeiras colunas

Seleção condicional:

subset(df, mpg > 20 & cyl == 4)

6 Funções Estatísticas Básicas

Essas funções realizam cálculos estatísticos simples sobre vetores numéricos.

Função Descrição
min() Valor mínimo
max() Valor máximo
mean() Média
sd() Desvio padrão
median() Mediana
round() Arredondamento numérico

Exemplo:

x <- c(2, 5, 7, NA, 3)

min(x, na.rm = TRUE)

max(x, na.rm = TRUE)

mean(x, na.rm = TRUE)

sd(x, na.rm = TRUE)

median(x, na.rm = TRUE)

round(mean(x, na.rm = TRUE), 2)

7 Comparações Lógicas

Operadores e funções que verificam condições e tipos de dados.

Principais operadores:

Operador Descrição
> Maior que
< Menor que
== Igual a
!= Diferente de
>= Maior ou igual a
<= Menor ou igual a
%in% Verifica se um valor pertence a um conjunto
! Nega um resultado lógico

Exemplos:

v <- c(10, 20, 30, 40)
v > 20
v == 20
v %in% c(10, 30)
!(v == 20)

Funções auxiliares:

class() → informa o tipo de um objeto Sys.Date() → retorna a data atual do sistema

8 Operadores Compostos

Operadores compostos são usados para combinar condições lógicas.

Operador Nome Exemplo Resultado
& E lógico (x > 5 & y < 10) Verdadeiro se ambas as condições forem verdadeiras
| OU lógico (x > 5 | y < 10) Verdadeiro se pelo menos uma condição for verdadeira

Exemplos:

df[df$mpg > 20 & df$cyl == 4, ]

df[df$hp > 100 | df$wt > 3.5, ]

9 Exportação e Salvamento

Após manipular os dados, é comum salvar os resultados em arquivos externos.

write.csv(df, "saida.csv", row.names = FALSE)

saveRDS(df, "saida.rds")

10 Sessão e Pacotes Utilizados

sessionInfo()

Fim