Atividade 04 - Importação e Manipulação de Dados no R
Introdução
Este trabalho apresenta de maneira clara e instrutiva os conceitos
fundamentais relacionados à importação e manipulação de dados no R. A
princípio pretende-se entender as funções mais frequentemente empregadas
para a leitura, combinação, visualização e análise simples de dados,
examinando pacotes amplamente utilizados, como readxl,
readr e googlesheets4.
Importação e Manipulação de dados
A importação de dados é o primeiro passo em qualquer análise. No R, há várias formas de carregar informações de diferentes fontes, como planilhas do Excel, arquivos CSV e planilhas do Google Sheets.
1. Pacote: readxl – função
read_xlsx()- readxl: função
read_xlsx()
1.1 A função read_xlsx() é usada para
importar arquivos do Excel (.xlsx)
2. Pacotes googlesheets4 – função ’read_sheet()
2.1 Essa função permite importar dados diretamente de uma planilha armazenada no Google Sheets.
library(googlesheets4)
dados_google <- read_sheet(ss = "[https://docs.google.com/spreadsheets/d/EXEMPLO_URL](https://docs.google.com/spreadsheets/d/EXEMPLO_URL)")
head(dados_google)3. Explicação dos argumentos path,
file, delim, ss
3.1 ‘path’: caminho do arquivo a ser importado.
3.2 Pacote readr – função read_delim() A função read_delim() é utilizada para ler arquivos de texto delimitados, como CSV, TSV ou outros formatos com separadores personalizados.
3.2.1 Detalhamento de file e
delim
file: indica o nome ou caminho do arquivo
delim: *caracter usado como separador (ex: “,” , “;” ,’).
4. Combinação de Tabelas
Quando os dados estão divididos em partes, é comum precisar uni-los. No R, há funções específicas para isso:
• rbind(): combina tabelas empilhando linhas (devem ter as mesmas colunas).
• cbind(): combina tabelas acrescentando colunas (devem ter o mesmo número de linhas).
tabela1 <- data.frame(ID = 1:3, Nota = c(8, 9, 7))
tabela2 <- data.frame(ID = 4:6, Nota = c(6, 8, 10))
tabela_completa <- rbind(tabela1, tabela2)
nomes <- data.frame(Nome = c("FLAMENGO", "LEANDRO", "CAMPEÃO", "PALMEIRAS", "ELIMINADO", "NÃO TEM MUNDIAL"))
tabela_final <- cbind(tabela_completa, nomes)
tabela_final## ID Nota Nome
## 1 1 8 FLAMENGO
## 2 2 9 LEANDRO
## 3 3 7 CAMPEÃO
## 4 4 6 PALMEIRAS
## 5 5 8 ELIMINADO
## 6 6 10 NÃO TEM MUNDIAL
5. Estrutura e Dimensões dos Dados
A seguir algumas funções que ajudam a entender o formato do conjungo de dados:
## [1] 3
## [1] 6
## [1] 6 3
## ID Nota Nome
## 1 1 8 FLAMENGO
## 2 2 9 LEANDRO
## 3 3 7 CAMPEÃO
## 4 4 6 PALMEIRAS
## 5 5 8 ELIMINADO
## 6 6 10 NÃO TEM MUNDIAL
## ID Nota Nome
## 1 1 8 FLAMENGO
## 2 2 9 LEANDRO
## 3 3 7 CAMPEÃO
## 4 4 6 PALMEIRAS
## 5 5 8 ELIMINADO
## 6 6 10 NÃO TEM MUNDIAL
## 'data.frame': 6 obs. of 3 variables:
## $ ID : int 1 2 3 4 5 6
## $ Nota: num 8 9 7 6 8 10
## $ Nome: chr "FLAMENGO" "LEANDRO" "CAMPEÃO" "PALMEIRAS" ...
Esses comandos possibilitam checar a quantidade de variáveis, as categorias de dados e as informações gerais do conjunto.
6. Seleção e Subconjuntos
No R, é possível selecionar partes específicas de um conjunto de dados, tanto por nome quanto por índice.
| Selecionar coluna por nome | Selecionar coluna por índice |
|---|---|
| tabela_final$Nome | tabela_final[, 2] |
| Selecionar linha específica | Selecionar subconjunto com filtro lógico |
|---|---|
| tabela_final[1, ] | subset(tabela_final, Nota > 8 |
7. Funções Estatísticas Básicas
Essas funções calculam estatísticas simples sobre os dados numéricos.
notas <- tabela_final$Nota
min(notas) # valor mínimo
max(notas) # valor máximo
mean(notas) # média
sd(notas) # desvio padrão
median(notas) # mediana
round(mean(notas), 2) # arredonda a média com 2 casas decimais- Essas operações são úteis para compreender o comportamento geral das variáveis numéricas.
8. Comparações Lógicas
Comparações lógicas são fundamentais para criar condições, filtros e verificações em análises.
# Para os valores abaixo de x e y, temos a seguinte lógica
x <- 10
y <- 5
x > y # maior que
x < y # menor que
x == y # igual
x != y # diferente
x >= y # maior ou igual
x <= y # menor ou igual9. Operadores Compostos
São usados para combinar condições lógica:
Regra do E (&): todas as condições precisam ser verdadeiras. Regra do OU (|): pelo menos uma das condições precisa ser verdadeira.
nota <- 8
E (AND)
(idade > 18) & (nota >= 7)
OU (OR)
(idade > 30) | (nota >= 7)
#Esses operadores são utilizados em filtros, seleções e testes condicionais.Conclusão
A importação e o tratamento de dados são fases fundamentais na análise em R. Aprender a usar essas funções oferece mais liberdade para investigar, unir e modificar conjuntos de dados de variados formatos, adequando-os para análises estatísticas e visualizações. O conhecimento prático dessas ferramentas é a base necessária para qualquer atividade em ciência de dados.