Atividade 04 - Importação e Manipulação de Dados no R

Introdução

Este trabalho apresenta de maneira clara e instrutiva os conceitos fundamentais relacionados à importação e manipulação de dados no R. A princípio pretende-se entender as funções mais frequentemente empregadas para a leitura, combinação, visualização e análise simples de dados, examinando pacotes amplamente utilizados, como readxl, readr e googlesheets4.


Importação e Manipulação de dados

A importação de dados é o primeiro passo em qualquer análise. No R, há várias formas de carregar informações de diferentes fontes, como planilhas do Excel, arquivos CSV e planilhas do Google Sheets.

1. Pacote: readxl – função read_xlsx()- readxl: função read_xlsx()

1.1 A função read_xlsx() é usada para importar arquivos do Excel (.xlsx)

 dados_excel <- read_xlsx(path = "dados_exemplo.xlsx")
 head(dados_excel)

2. Pacotes googlesheets4 – função ’read_sheet()

2.1 Essa função permite importar dados diretamente de uma planilha armazenada no Google Sheets.

library(googlesheets4)
dados_google <- read_sheet(ss = "[https://docs.google.com/spreadsheets/d/EXEMPLO_URL](https://docs.google.com/spreadsheets/d/EXEMPLO_URL)")
head(dados_google)

3. Explicação dos argumentos path, file, delim, ss

3.1 ‘path’: caminho do arquivo a ser importado.

3.2 Pacote readr – função read_delim() A função read_delim() é utilizada para ler arquivos de texto delimitados, como CSV, TSV ou outros formatos com separadores personalizados.

library(readr)
dados_csv <- read_delim(file = "dados_exemplo.csv", delim = ",")
head(dados_csv)

3.2.1 Detalhamento de file e delim

file: indica o nome ou caminho do arquivo

delim: *caracter usado como separador (ex: “,” , “;” ,’).

4. Combinação de Tabelas

Quando os dados estão divididos em partes, é comum precisar uni-los. No R, há funções específicas para isso:

rbind(): combina tabelas empilhando linhas (devem ter as mesmas colunas).

cbind(): combina tabelas acrescentando colunas (devem ter o mesmo número de linhas).

tabela1 <- data.frame(ID = 1:3, Nota = c(8, 9, 7))
tabela2 <- data.frame(ID = 4:6, Nota = c(6, 8, 10))
tabela_completa <- rbind(tabela1, tabela2)

nomes <- data.frame(Nome = c("FLAMENGO", "LEANDRO", "CAMPEÃO", "PALMEIRAS", "ELIMINADO", "NÃO TEM MUNDIAL"))
tabela_final <- cbind(tabela_completa, nomes)
tabela_final
##   ID Nota            Nome
## 1  1    8        FLAMENGO
## 2  2    9         LEANDRO
## 3  3    7         CAMPEÃO
## 4  4    6       PALMEIRAS
## 5  5    8       ELIMINADO
## 6  6   10 NÃO TEM MUNDIAL

5. Estrutura e Dimensões dos Dados

A seguir algumas funções que ajudam a entender o formato do conjungo de dados:

ncol(tabela_final)  # número de colunas
## [1] 3
nrow(tabela_final)  # número de linhas
## [1] 6
dim(tabela_final)   # dimensões (linhas, colunas)
## [1] 6 3
head(tabela_final)  # primeiras linhas
##   ID Nota            Nome
## 1  1    8        FLAMENGO
## 2  2    9         LEANDRO
## 3  3    7         CAMPEÃO
## 4  4    6       PALMEIRAS
## 5  5    8       ELIMINADO
## 6  6   10 NÃO TEM MUNDIAL
tail(tabela_final)  # últimas linhas
##   ID Nota            Nome
## 1  1    8        FLAMENGO
## 2  2    9         LEANDRO
## 3  3    7         CAMPEÃO
## 4  4    6       PALMEIRAS
## 5  5    8       ELIMINADO
## 6  6   10 NÃO TEM MUNDIAL
str(tabela_final)   # estrutura interna do objeto
## 'data.frame':    6 obs. of  3 variables:
##  $ ID  : int  1 2 3 4 5 6
##  $ Nota: num  8 9 7 6 8 10
##  $ Nome: chr  "FLAMENGO" "LEANDRO" "CAMPEÃO" "PALMEIRAS" ...

Esses comandos possibilitam checar a quantidade de variáveis, as categorias de dados e as informações gerais do conjunto.

6. Seleção e Subconjuntos

No R, é possível selecionar partes específicas de um conjunto de dados, tanto por nome quanto por índice.

Selecionar coluna por nome Selecionar coluna por índice
tabela_final$Nome tabela_final[, 2]
Selecionar linha específica Selecionar subconjunto com filtro lógico
tabela_final[1, ] subset(tabela_final, Nota > 8

7. Funções Estatísticas Básicas

Essas funções calculam estatísticas simples sobre os dados numéricos.

notas <- tabela_final$Nota
min(notas)     # valor mínimo
max(notas)     # valor máximo
mean(notas)    # média
sd(notas)      # desvio padrão
median(notas)  # mediana
round(mean(notas), 2)  # arredonda a média com 2 casas decimais
  • Essas operações são úteis para compreender o comportamento geral das variáveis numéricas.

8. Comparações Lógicas

Comparações lógicas são fundamentais para criar condições, filtros e verificações em análises.

# Para os valores abaixo de x e y, temos a seguinte lógica
x <- 10
y <- 5
x > y # maior que
x < y # menor que
x == y # igual
x != y # diferente
x >= y # maior ou igual
x <= y # menor ou igual

9. Operadores Compostos

São usados para combinar condições lógica:

Regra do E (&): todas as condições precisam ser verdadeiras. Regra do OU (|): pelo menos uma das condições precisa ser verdadeira.

nota <- 8
E (AND)
(idade > 18) & (nota >= 7)
OU (OR)
(idade > 30) | (nota >= 7)

#Esses operadores são  utilizados em filtros, seleções e testes condicionais.

Conclusão

A importação e o tratamento de dados são fases fundamentais na análise em R. Aprender a usar essas funções oferece mais liberdade para investigar, unir e modificar conjuntos de dados de variados formatos, adequando-os para análises estatísticas e visualizações. O conhecimento prático dessas ferramentas é a base necessária para qualquer atividade em ciência de dados.