Este relatório apresenta os principais conceitos sobre importação e manipulação de dados no R, descrevendo o funcionamento das principais funções utilizadas em cada etapa do processo. Cada função é acompanhada de explicação de seus argumentos e exemplos práticos em código.
A importação de dados é o primeiro passo em qualquer análise. No R, existem diversas bibliotecas que facilitam a leitura de diferentes tipos de arquivos. As mais utilizadas são readxl, readr e googlesheets4.
A função read_xlsx() é usada para importar planilhas do Excel no formato .xlsx diretamente para o R, criando um objeto data.frame ou tibble.
| Argumento | Descrição |
|---|---|
path |
Caminho (diretório) do arquivo .xlsx que será
importado. Pode ser absoluto ou relativo. |
sheet |
Nome ou índice da aba da planilha que será lida. Padrão: primeira aba. |
range |
Intervalo de células a serem lidas (exemplo:
"A1:C10"). |
col_types |
Define manualmente o tipo de cada coluna (exemplo:
"text", "numeric", "date"). |
Exemplos de uso:
Instalação e carregamento do pacote:
install.packages("readxl")
library(readxl)
Importando uma planilha Excel:
dados_excel <- read_xlsx(path = "dados.xlsx", sheet = 1)
Exibindo as 6 primeiras linhas:
head(dados_excel)
A função read_delim() é utilizada para importar arquivos de texto delimitados, como .csv ou .txt. É uma das funções mais flexíveis da família readr, pois permite definir qualquer tipo de delimitador.
Principais argumentos
| Argumento | Descrição |
|---|---|
file |
Caminho e nome do arquivo a ser lido. |
delim |
Caractere usado para separar as colunas (exemplo: ",",
";", "\t"). |
col_types |
Define o tipo de cada coluna, caso necessário. |
locale |
Permite configurar encoding, formato decimal, separador de milhar, etc. |
Exemplos de uso:
install.packages("readr")
library(readr)
Leitura de um arquivo CSV separado por vírgula:
dados_csv <- read_delim(file = "dados.csv", delim = ",")
Visualização inicial dos dados:
head(dados_csv)
A função read_sheet() permite importar dados diretamente de uma planilha hospedada no Google Sheets sem precisar baixar o arquivo.
| Argumento | Descrição |
|---|---|
ss |
URL completa ou ID da planilha no Google Sheets. |
sheet |
Nome ou índice da aba que será importada. |
range |
Intervalo de células a serem lidas (exemplo:
"A1:D20"). |
Exemplos de uso:
install.packages("googlesheets4")
library(googlesheets4)
Autenticação (necessária apenas na primeira vez):
gs4_auth()
Leitura da planilha:
dados_gs <- read_sheet(ss = "[https://docs.google.com/spreadsheets/d/SEU_ID_AQUI](https://docs.google.com/spreadsheets/d/SEU_ID_AQUI)", sheet = "Página1")
A função rbind() é usada para empilhar linhas de dois ou mais data frames que possuem as mesmas colunas.
Exemplo:
tabela1 <- data.frame(id = 1:2, nome = c("A", "B"))
tabela2 <- data.frame(id = 3:4, nome = c("C", "D"))
Combina verticalmente (empilha):
tabelas_unidas <- rbind(tabela1, tabela2)
tabelas_unidas
Função cbind()
A função cbind() é usada para juntar colunas de dois data frames com o mesmo número de linhas.
Exemplo:
dados1 <- data.frame(a = 1:3)
dados2 <- data.frame(b = c("X", "Y", "Z"))
Combina lado a lado:
dados_combinados <- cbind(dados1, dados2)
dados_combinados
Essas funções permitem verificar o tamanho, a estrutura e uma prévia dos dados em um data frame.
| Função | Descrição |
|---|---|
ncol() |
Retorna o número de colunas |
nrow() |
Retorna o número de linhas |
dim() |
Mostra dimensões (linhas, colunas) |
head() |
Mostra as primeiras linhas |
tail() |
Mostra as últimas linhas |
str() |
Exibe a estrutura interna (tipos de variáveis, etc.) |
Exemplo:
df <- mtcars
ncol(df)
nrow(df)
dim(df)
head(df, 5)
tail(df, 3)
str(df)
Permitem acessar partes específicas dos dados, selecionando colunas e linhas por nome, posição ou condição lógica.
Exemplos:
Seleção por nome:
df$mpg
df[["hp"]]
Seleção por índice:
df[1:5, 1:3] # primeiras 5 linhas, 3 primeiras colunas
Seleção condicional:
subset(df, mpg > 20 & cyl == 4)
Essas funções realizam cálculos estatísticos simples sobre vetores numéricos.
| Função | Descrição |
|---|---|
min() |
Valor mínimo |
max() |
Valor máximo |
mean() |
Média |
sd() |
Desvio padrão |
median() |
Mediana |
round() |
Arredondamento numérico |
Exemplo:
x <- c(2, 5, 7, NA, 3)
min(x, na.rm = TRUE)
max(x, na.rm = TRUE)
mean(x, na.rm = TRUE)
sd(x, na.rm = TRUE)
median(x, na.rm = TRUE)
round(mean(x, na.rm = TRUE), 2)
Operadores e funções que verificam condições e tipos de dados.
Principais operadores:
| Operador | Descrição |
|---|---|
> |
Maior que |
< |
Menor que |
== |
Igual a |
!= |
Diferente de |
>= |
Maior ou igual a |
<= |
Menor ou igual a |
%in% |
Verifica se um valor pertence a um conjunto |
! |
Nega um resultado lógico |
Exemplos:
v <- c(10, 20, 30, 40)
v > 20
v == 20
v %in% c(10, 30)
!(v == 20)
Funções auxiliares:
class() → informa o tipo de um objeto Sys.Date() → retorna a data atual do sistema
Operadores compostos são usados para combinar condições lógicas.
| Operador | Nome | Exemplo | Resultado | ||
|---|---|---|---|---|---|
& |
E lógico | (x > 5 & y < 10) |
Verdadeiro se ambas as condições forem verdadeiras | ||
| |
OU lógico | (x > 5 | y < 10) |
Verdadeiro se pelo menos uma condição for verdadeira |
Exemplos:
df[df$mpg > 20 & df$cyl == 4, ]
df[df$hp > 100 | df$wt > 3.5, ]
Após manipular os dados, é comum salvar os resultados em arquivos externos.
write.csv(df, "saida.csv", row.names = FALSE)
saveRDS(df, "saida.rds")
sessionInfo()
Fim
…