Introdução ao R – Parte 2: Trabalhando com Dados

Importação, Visualização e Manipulação de Dados

Hellen Sonaly Silva Alves
hellensilva.estat@gmail.com
http://lattes.cnpq.br/4845253626067527


Introdução

Neste tutorial, daremos continuidade aos estudos em R e RStudio, avançando um pouco mais no trabalho com dados. O objetivo é apresentar conceitos fundamentais como a leitura de arquivos, o uso de data frames, a visualização de dados e algumas manipulações iniciais que fazem parte do dia a dia de quem trabalha com análise de dados em R.

O conteúdo foi desenvolvido especialmente para iniciantes, com explicações passo a passo e exemplos simples.

Caso você ainda não tenha acompanhado a Parte 1, é recomendável acessá-la antes de continuar, pois alguns conceitos básicos já foram apresentados lá: https://www.rpubs.com/Hellen_Silva/1384634

Data Frame

O que é um data frame?

Um data frame é uma das estruturas de dados mais importantes do R. Ele se parece com uma tabela, onde:

  • Cada coluna representa uma variável

  • Cada linha representa uma observação

Criando um data frame simples

Após executar o código abaixo, é criado um data frame chamado dados. No exemplo apresentado, o data frame possui três colunas: nome, idade e nota.

dados <- data.frame(
  nome = c("Ana", "Bruno", "Carlos"),
  idade = c(23, 30, 27),
  nota = c(8.5, 7.0, 9.0)
)

A coluna nome contém valores do tipo caractere, enquanto as colunas idade e nota possuem valores numéricos.

Os valores dentro da função c() correspondem aos dados de cada coluna. É importante que todas as colunas tenham o mesmo número de elementos, pois cada posição representa uma mesma observação. Por exemplo, o nome “Ana”, a idade 23 e a nota 8.5 pertencem à mesma linha do data frame.

Ao digitar apenas dados no console, o R exibe todo o conteúdo do data frame, permitindo visualizar os valores armazenados em cada coluna e linha.

dados
##     nome idade nota
## 1    Ana    23  8.5
## 2  Bruno    30  7.0
## 3 Carlos    27  9.0

No exemplo, temos um data frame com 3 linhas e 3 colunas.

Lendo data frames no R

Visualizando dados

A função head() é utilizada para visualizar as primeiras linhas de um data frame. No exemplo abaixo, aplicamos a função ao data frame chamado dados:

head(dados)
##     nome idade nota
## 1    Ana    23  8.5
## 2  Bruno    30  7.0
## 3 Carlos    27  9.0

Ao executar esse comando, o R exibe, por padrão, as seis primeiras linhas do data frame.

Essa visualização inicial é importante para conhecer os dados, verificar se eles foram carregados corretamente e observar os valores das variáveis sem precisar mostrar todo o conjunto de dados.

No nosso caso, como o data frame é pequeno, todas as linhas são exibidas, mas em conjuntos de dados maiores a função head()facilita a inspeção rápida das informações.

Estrutura dos dados

A função str() é utilizada para mostrar a estrutura do data frame, incluindo o tipo de cada variável presente nas colunas.

str(dados)
## 'data.frame':    3 obs. of  3 variables:
##  $ nome : chr  "Ana" "Bruno" "Carlos"
##  $ idade: num  23 30 27
##  $ nota : num  8.5 7 9

Com essa função, é possível verificar o tipo das variáveis do data frame, como caractere (chr) ou numérico (num), além do número de observações e variáveis existentes.

Resumo estatístico das variáveis

A função summary() apresenta um resumo estatístico das variáveis do data frame.

summary(dados)
##      nome               idade            nota      
##  Length:3           Min.   :23.00   Min.   :7.000  
##  Class :character   1st Qu.:25.00   1st Qu.:7.750  
##  Mode  :character   Median :27.00   Median :8.500  
##                     Mean   :26.67   Mean   :8.167  
##                     3rd Qu.:28.50   3rd Qu.:8.750  
##                     Max.   :30.00   Max.   :9.000

Esse resumo inclui informações como valores mínimos, máximos, média e mediana para variáveis numéricas, além da contagem de valores para variáveis categóricas.

Importação de arquivos

Uma das tarefas mais comuns no R é a importação de dados externos, ou seja, a leitura de arquivos que estão salvos no computador para dentro do ambiente do R, onde poderão ser analisados e manipulados.

Importando arquivos .csv

Arquivos no formato .csv (Comma-Separated Values) podem ser importados utilizando a função read.csv():

dados_csv <- read.csv("arquivo.csv")

Para que a leitura funcione corretamente, o arquivo deve estar localizado no diretório de trabalho (working directory) do R.

Para verificar qual é o diretório de trabalho atual, utilize:

getwd()

Caso seja necessário definir ou alterar o diretório de trabalho, utilize a função setwd() informando o caminho da pasta onde o arquivo está salvo:

setwd("caminho/do/diretorio")

Importando arquivos .txt

Arquivos de texto no formato .txt podem ser importados com a função read.table(). No exemplo abaixo, o argumento header = TRUE indica que a primeira linha do arquivo contém os nomes das colunas:

dados_txt <- read.table("arquivo.txt", header = TRUE)

Importando arquivos .xlsx

Para importar arquivos do Excel (.xlsx), é necessário instalar e carregar um pacote adicional. Um dos pacotes mais utilizados para essa tarefa é o readxl.

Primeiro, realizamos a instalação do pacote (caso ainda não esteja instalado):

install.packages("readxl")

Em seguida, carregamos o pacote:

library(readxl)

Após isso, o arquivo pode ser importado utilizando a função read_excel():

dados_excel <- read_excel("arquivo.xlsx")

Visualização de dados

Uma forma simples e eficiente de explorar os dados é por meio da visualização gráfica. Gráficos ajudam a identificar padrões, tendências e relações entre as variáveis de maneira mais intuitiva.

Gráfico de barras

O gráfico de barras é utilizado para comparar valores entre diferentes categorias. No exemplo abaixo, o gráfico mostra as notas associadas a cada aluno:

barplot(dados$nota,
        names.arg = dados$nome,
        col = "lightblue",
        main = "Notas dos alunos")

Nesse gráfico, cada barra representa a nota de um aluno, enquanto os nomes exibidos no eixo horizontal correspondem aos valores da coluna nome.

Gráfico de dispersão

O gráfico de dispersão é utilizado para analisar a relação entre duas variáveis numéricas. No exemplo a seguir, é possível observar a relação entre idade e nota:

plot(dados$idade, dados$nota,
     xlab = "Idade",
     ylab = "Nota",
     main = "Idade x Nota")

Cada ponto no gráfico representa um aluno, permitindo visualizar possíveis padrões ou associações entre as duas variáveis.

Primeiros tratamentos e manipulações de dados

Após conhecer a estrutura e visualizar os dados, é comum realizar algumas manipulações iniciais em um data frame, como selecionar colunas, selecionar linhas, filtrar observações e criar novas variáveis.

Selecionando colunas

Uma forma simples de acessar uma coluna específica de um data frame é utilizando o nome da coluna com o operador $:

dados$nome
## [1] "Ana"    "Bruno"  "Carlos"

Outra forma é utilizando colchetes, informando o nome da coluna desejada:

dados[, "idade"]
## [1] 23 30 27

Ambas as formas permitem acessar os valores de uma coluna específica do data frame.

Selecionando linhas

Também é possível selecionar linhas e colunas específicas utilizando colchetes. O primeiro valor representa a linha e o segundo representa a coluna:

dados[1, ]     # primeira linha
##   nome idade nota
## 1  Ana    23  8.5
dados[ , 2]    # segunda coluna
## [1] 23 30 27

Filtrando dados

Para filtrar os dados com base em uma condição, podemos utilizar expressões lógicas. No exemplo abaixo, são selecionados apenas os alunos com nota maior ou igual a 8:

dados[dados$nota >= 8, ]
##     nome idade nota
## 1    Ana    23  8.5
## 3 Carlos    27  9.0

Criando novas colunas

Novas colunas podem ser criadas diretamente no data frame. No exemplo a seguir, é criada a coluna aprovado, que indica se o aluno obteve nota maior ou igual a 7:

dados$aprovado <- dados$nota >= 7
dados
##     nome idade nota aprovado
## 1    Ana    23  8.5     TRUE
## 2  Bruno    30  7.0     TRUE
## 3 Carlos    27  9.0     TRUE

Essa nova coluna assume valores lógicos (TRUE ou FALSE), facilitando análises posteriores.

Conclusão

Neste tutorial, foram apresentados conceitos fundamentais para o trabalho com dados no R. Ao longo do conteúdo, aprendemos a criar e explorar data frames, importar dados de diferentes formatos, visualizar informações por meio de gráficos básicos e realizar manipulações iniciais, como seleção, filtragem e criação de novas colunas.