Relatório Dinâmico

Principais conceitos de importação e manipulação de dados no R

“Não acho que tenhamos outra alternativa senão permanecer otimistas. O otimismo é uma necessidade absoluta.” Ângela Davis

1 Introdução

Este relatório apresenta uma síntese sobre os principais conceitos de importação e manipulação de dados na linguagem R, como parte das atividades da disciplina METODOLOGIA QUANTITATIVA EM ADMINISTRAÇÃO, pertencente ao Programa de Mestrado Profissional em Administração da Universidade Federal de Itajubá (UNIFEI).

O trabalho tem como objetivo consolidar o aprendizado sobre importação e manipulação de dados na linguagem e baseou-se nas referências R para Ciência de Dados (WICKHAM; ÇETINKAYA-RUNDEL; GROLEMUND, 2023) e Ciência de Dados em R (2024).

2 Justificativa

A etapa de importação e manipulação de dados é fundamental em qualquer processo de análise científica. A correta leitura, organização e transformação dos dados assegura consistência e validade aos resultados obtidos em pesquisas acadêmicas e profissionais.

Dentro do contexto do Mestrado Profissional em Administração, compreender essas operações é essencial para a aplicação de métodos quantitativos e qualitativos baseados em evidências, permitindo análises mais estruturadas e alinhadas aos objetivos organizacionais.

Assim, este relatório busca sistematizar o conhecimento sobre essas práticas no R, em consonância com as abordagens didáticas adotadas na disciplina.

3 Objetivo

3.1 Objetivo Geral

Demonstrar, de forma técnica e aplicada, os principais conceitos, funções e procedimentos de importação e manipulação de dados no R, conforme as boas práticas recomendadas pelos autores de R para Ciência de Dados e Ciência de Dados em R.

3.2 Objetivos Específicos

  • Explicar as funções read_xlsx(), read_delim() e read_sheet() na importação de dados;

  • Explicar as funções rbind() e cbind() e sua utilização na combinação de tabelas;

  • Explicar as funções ncol(), nrow(), dim(), head(), tail() e str() utilizadas na estruturação e dimensionamento de conjunto de dados;

  • Explicar como se dá a seleção por nome e índice de colinas e linhas;

  • Exlicar as funções estatísticas básicas min(), max(), mean(), sd(), median() e round();

  • Explicar as funções de comparação lógicas class() e Sys.Date() comparações lógicas a partir e operadores simples e compostos.

  • 4 Base de dados utilizada

A tabela a seguir representa um conjunto de dados fictício denominado “alunos.csv”, que contém informações sobre estudantes, incluindo identificação, idade e nota final de uma determinada disciplina. O arquivo serviu como base para ilustrar as operações apresentadas neste documento.

ID Nome Idade Nota
1 Ana 19 8.5
2 Bruno 22 7.8
3 Carla 20 9.0
4 Daniel 21 6.7
5 Elisa 23 8.2

5 Importação de dados

A importação é o ponto de partida da análise de dados no R. De acordo com Wickham et al. (2023). É uma das etapas iniciais da análise, permitindo trazer para o ambiente R informações armazenadas em diferentes formatos (planilhas, arquivos de texto ou planilhas do Google etc.). A seguir serão apresentados alguns pacotes utilizados para esta finalidade.

Pacote readxl

Permite importar planilhas do Excel (.xlsx) sem necessidade de software adicional. O pacote readxl fornece a função read_xlsx() para ler planilhas do Excel (.xlsx):

Sintaxe:

library(readr)
alunos <- read_delim("alunos.csv", delim = ",")
head(alunos)

Argumentos principais:

  • path ou file: define o caminho do arquivo;

  • sheet: nome da aba a ser lida.

Pacote readr

Utilizado para importar arquivos de texto (CSV, TSV, etc.) de forma eficiente: O pacote readr disponibiliza a função read_delim() para importar arquivos delimitados, como o CSV:

Sintaxe:

library(readxl)
dados_excel <- read_xlsx("alunos.xlsx")
head(dados_excel)

Argumento principal:

delim: define o delimitador usado nas colunas.

Pacote googlesheets4

Permite importar dados diretamente de planilhas hospedadas no Google Sheets: Para acessar planilhas diretamente do Google Sheets, utiliza-se o pacote googlesheets4 e a função read_sheet():

Sintaxe:

library(googlesheets4)
dados_gs <- read_sheet("https://docs.google.com/spreadsheets/d/ID_DO_ARQUIVO/edit#gid=0")
head(dados_gs)

Argumento principal:

ss: identifica o link ou o ID da planilha.

Argumentos path, file, delim, ss

Os principais argumentos utilizados são: path ou file (definem o caminho do arquivo), delim (indica o delimitador usado nos arquivos de texto) e ss (identifica a planilha no Google Sheets).

6 Combinação de tabelas

A combinação de tabelas permite unir diferentes conjuntos de dados em um único objeto para análise. A combinação de tabelas é necessária quando se deseja unir conjuntos de dados com estruturas compatíveis. Em R, as funções rbind() e cbind() são amplamente utilizadas para essa finalidade.

Função rbind()

A função rbind() empilha tabelas verticalmente (linhas):

# Pacote: base
tabela1 <- data.frame(ID = 1:3, Nota = c(8, 9, 7))
tabela2 <- data.frame(ID = 4:6, Nota = c(6, 8, 9))
dados_rbind <- rbind(tabela1, tabela2)

Função cbind()

A função cbind() concatena tabelas horizontalmente (colunas):

col1 <- data.frame(Nome = c("Ana", "Bruno", "Carla"))
col2 <- data.frame(Nota = c(9, 8, 10))
dados_cbind <- cbind(col1, col2)

7 Estrutura e dimensões dos dados

Antes de manipular dados, é necessário compreender sua estrutura e dimensões. Funções essenciais: Para compreender a estrutura de um conjunto de dados, utilizam-se funções que retornam número de colunas, linhas, dimensões gerais e tipos de variáveis. - ncol(), nrow(), dim(), head(), tail(), str()

# Pacote: base
ncol(alunos)   # número de colunas
nrow(alunos)   # número de linhas
dim(alunos)    # dimensões gerais
head(alunos)   # primeiras linhas
tail(alunos)   # últimas linhas
str(alunos)    # estrutura e tipos de variáveis

8 Seleção e subconjuntos

A criação de subconjuntos é uma prática central na análise de dados. Na base R: A seleção permite extrair subconjuntos específicos de linhas e colunas de uma tabela. Pode ser feita por índices ou nomes de variáveis. Exemplo de seleção por nome de coluna:

# Pacote: base
alunos[, c("Nome", "Nota")]
alunos[1:3, c(1, 4)]

Exemplo de seleção por índice de linha e coluna:

dados[1:5, c(1,3)]

Usando o pacote dplyr, a seleção pode ser realizada de forma mais legível:

library(dplyr)
alunos %>%
  select(Nome, Nota) %>%
  filter(Nota >= 8)

O uso de pipes (%>%) melhora a legibilidade e a produtividade na análise.

##Funções estatísticas básicas
- min(), max(), mean(), sd(), median(), round()

O R fornece funções para cálculos estatísticos descritivos simples, úteis para sumarizar variáveis numéricas:

# Pacote: base
min(alunos$Nota)
max(alunos$Nota)
mean(alunos$Nota)
sd(alunos$Nota)
median(alunos$Nota)
round(mean(alunos$Nota), 2)

9 Comparações lógicas

 - `class()`, `Sys.Date()`
 - Operadores `>`, `<`, `==`, `!=`, `>=`, `<=`, `%in%`, `!`

As comparações lógicas são utilizadas para testar condições sobre os dados, retornando valores TRUE ou FALSE.

x <- 10
y <- 5
x > y  # TRUE
x == 10 # TRUE
x != y  # TRUE
x %in% c(1,5,10) # TRUE
!FALSE  # TRUE

Funções auxiliares:

class(x)      # Tipo do objeto
Sys.Date()    # Retorna a data atual

Operadores compostos

 - Regra do E (`&`)
 - Regra do OU (`|`)
 

Os operadores compostos permitem combinar múltiplas condições lógicas. Os principais são o operador E (&) e o operador OU (|).

r
# Pacote: base
idade <- 25
nota <- 8
(idade > 18) & (nota >= 7)  # operador E lógico
(idade < 18) | (nota >= 7)  # operador OU lógico

10 Considerações Finais

A importação e manipulação de dados em R constituem etapas fundamentais para qualquer análise estatística ou de ciência de dados. Os conceitos e funções apresentados demonstram a versatilidade do R na integração de diferentes fontes de dados, organização e cálculo de estatísticas básicas. Com base em R para Ciência de Dados, observa-se que o domínio dessas operações é essencial para análises reprodutíveis, estruturadas e eficientes.

A importação e manipulação de dados em R são etapas estruturantes da análise científica e aplicada. O uso integrado dos pacotes readr, readxl, googlesheets4 e dplyr, juntamente com funções do R base, proporciona um ambiente poderoso para o tratamento de dados. Este relatório, desenvolvido no âmbito da disciplina de Análise Qualitativa de Dados do Mestrado Profissional em Administração da UNIFEI, demonstra que o domínio dessas ferramentas é essencial para conduzir análises reprodutíveis e metodologicamente sólidas.

Referências bibliográficas

CURSO-R. Ciência de Dados em R. São Paulo, 2024. Disponível em: https://livro.curso-r.com/ . Acesso em: 22 out. 2025.

Hadley Wickham, Garrett Grolemund. 2023. R for Data Science. https://r4ds.hadley.nz/.