Relatório Dinâmico
Principais conceitos de importação e manipulação de dados no R
“Não acho que tenhamos outra alternativa senão permanecer otimistas. O otimismo é uma necessidade absoluta.” Ângela Davis
1 Introdução
Este relatório apresenta uma síntese sobre os principais conceitos de importação e manipulação de dados na linguagem R, como parte das atividades da disciplina METODOLOGIA QUANTITATIVA EM ADMINISTRAÇÃO, pertencente ao Programa de Mestrado Profissional em Administração da Universidade Federal de Itajubá (UNIFEI).
O trabalho tem como objetivo consolidar o aprendizado sobre importação e manipulação de dados na linguagem e baseou-se nas referências R para Ciência de Dados (WICKHAM; ÇETINKAYA-RUNDEL; GROLEMUND, 2023) e Ciência de Dados em R (2024).
2 Justificativa
A etapa de importação e manipulação de dados é fundamental em qualquer processo de análise científica. A correta leitura, organização e transformação dos dados assegura consistência e validade aos resultados obtidos em pesquisas acadêmicas e profissionais.
Dentro do contexto do Mestrado Profissional em Administração, compreender essas operações é essencial para a aplicação de métodos quantitativos e qualitativos baseados em evidências, permitindo análises mais estruturadas e alinhadas aos objetivos organizacionais.
Assim, este relatório busca sistematizar o conhecimento sobre essas práticas no R, em consonância com as abordagens didáticas adotadas na disciplina.
3 Objetivo
3.1 Objetivo Geral
Demonstrar, de forma técnica e aplicada, os principais conceitos, funções e procedimentos de importação e manipulação de dados no R, conforme as boas práticas recomendadas pelos autores de R para Ciência de Dados e Ciência de Dados em R.
3.2 Objetivos Específicos
Explicar as funções read_xlsx(), read_delim() e read_sheet() na importação de dados;
Explicar as funções rbind() e cbind() e sua utilização na combinação de tabelas;
Explicar as funções ncol(), nrow(), dim(), head(), tail() e str() utilizadas na estruturação e dimensionamento de conjunto de dados;
Explicar como se dá a seleção por nome e índice de colinas e linhas;
Exlicar as funções estatísticas básicas min(), max(), mean(), sd(), median() e round();
Explicar as funções de comparação lógicas class() e Sys.Date() comparações lógicas a partir e operadores simples e compostos.
4 Base de dados utilizada
A tabela a seguir representa um conjunto de dados fictício denominado “alunos.csv”, que contém informações sobre estudantes, incluindo identificação, idade e nota final de uma determinada disciplina. O arquivo serviu como base para ilustrar as operações apresentadas neste documento.
| ID | Nome | Idade | Nota |
|---|---|---|---|
| 1 | Ana | 19 | 8.5 |
| 2 | Bruno | 22 | 7.8 |
| 3 | Carla | 20 | 9.0 |
| 4 | Daniel | 21 | 6.7 |
| 5 | Elisa | 23 | 8.2 |
5 Importação de dados
A importação é o ponto de partida da análise de dados no R. De acordo com Wickham et al. (2023). É uma das etapas iniciais da análise, permitindo trazer para o ambiente R informações armazenadas em diferentes formatos (planilhas, arquivos de texto ou planilhas do Google etc.). A seguir serão apresentados alguns pacotes utilizados para esta finalidade.
Pacote readxl
Permite importar planilhas do Excel (.xlsx) sem necessidade de
software adicional. O pacote readxl fornece a função
read_xlsx() para ler planilhas do Excel (.xlsx):
Sintaxe:
Argumentos principais:
path ou file: define o caminho do arquivo;
sheet: nome da aba a ser lida.
Pacote readr
Utilizado para importar arquivos de texto (CSV, TSV, etc.) de forma
eficiente: O pacote readr disponibiliza a função
read_delim() para importar arquivos delimitados, como o
CSV:
Sintaxe:
Argumento principal:
delim: define o delimitador usado nas colunas.
Pacote googlesheets4
Permite importar dados diretamente de planilhas hospedadas no Google
Sheets: Para acessar planilhas diretamente do Google Sheets, utiliza-se
o pacote googlesheets4 e a função
read_sheet():
Sintaxe:
library(googlesheets4)
dados_gs <- read_sheet("https://docs.google.com/spreadsheets/d/ID_DO_ARQUIVO/edit#gid=0")
head(dados_gs)Argumento principal:
ss: identifica o link ou o ID da planilha.
Argumentos path, file, delim,
ss
Os principais argumentos utilizados são: path ou
file (definem o caminho do arquivo), delim
(indica o delimitador usado nos arquivos de texto) e ss
(identifica a planilha no Google Sheets).
6 Combinação de tabelas
A combinação de tabelas permite unir diferentes conjuntos de dados em
um único objeto para análise. A combinação de tabelas é necessária
quando se deseja unir conjuntos de dados com estruturas compatíveis. Em
R, as funções rbind() e cbind() são amplamente
utilizadas para essa finalidade.
Função rbind()
A função rbind() empilha tabelas verticalmente
(linhas):
Função cbind()
A função cbind() concatena tabelas horizontalmente
(colunas):
7 Estrutura e dimensões dos dados
Antes de manipular dados, é necessário compreender sua estrutura e
dimensões. Funções essenciais: Para compreender a estrutura de um
conjunto de dados, utilizam-se funções que retornam número de colunas,
linhas, dimensões gerais e tipos de variáveis. - ncol(),
nrow(), dim(), head(),
tail(), str()
8 Seleção e subconjuntos
A criação de subconjuntos é uma prática central na análise de dados. Na base R: A seleção permite extrair subconjuntos específicos de linhas e colunas de uma tabela. Pode ser feita por índices ou nomes de variáveis. Exemplo de seleção por nome de coluna:
Exemplo de seleção por índice de linha e coluna:
Usando o pacote dplyr, a seleção pode ser realizada de
forma mais legível:
O uso de pipes (%>%) melhora a legibilidade e a produtividade na análise.
##Funções estatísticas básicas
- min(), max(), mean(),
sd(), median(), round()
O R fornece funções para cálculos estatísticos descritivos simples, úteis para sumarizar variáveis numéricas:
9 Comparações lógicas
- `class()`, `Sys.Date()`
- Operadores `>`, `<`, `==`, `!=`, `>=`, `<=`, `%in%`, `!`
As comparações lógicas são utilizadas para testar condições sobre os dados, retornando valores TRUE ou FALSE.
Funções auxiliares:
Operadores compostos
- Regra do E (`&`)
- Regra do OU (`|`)
Os operadores compostos permitem combinar múltiplas condições
lógicas. Os principais são o operador E (&) e o
operador OU (|).
r
# Pacote: base
idade <- 25
nota <- 8
(idade > 18) & (nota >= 7) # operador E lógico
(idade < 18) | (nota >= 7) # operador OU lógico
10 Considerações Finais
A importação e manipulação de dados em R constituem etapas fundamentais para qualquer análise estatística ou de ciência de dados. Os conceitos e funções apresentados demonstram a versatilidade do R na integração de diferentes fontes de dados, organização e cálculo de estatísticas básicas. Com base em R para Ciência de Dados, observa-se que o domínio dessas operações é essencial para análises reprodutíveis, estruturadas e eficientes.
A importação e manipulação de dados em R são etapas estruturantes da análise científica e aplicada. O uso integrado dos pacotes readr, readxl, googlesheets4 e dplyr, juntamente com funções do R base, proporciona um ambiente poderoso para o tratamento de dados. Este relatório, desenvolvido no âmbito da disciplina de Análise Qualitativa de Dados do Mestrado Profissional em Administração da UNIFEI, demonstra que o domínio dessas ferramentas é essencial para conduzir análises reprodutíveis e metodologicamente sólidas.
Referências bibliográficas
CURSO-R. Ciência de Dados em R. São Paulo, 2024. Disponível em: https://livro.curso-r.com/ . Acesso em: 22 out. 2025.
Hadley Wickham, Garrett Grolemund. 2023. R for Data Science. https://r4ds.hadley.nz/.
