Introdução ao R – Parte 2: Trabalhando com Dados
Importação, Visualização e Manipulação de Dados
Hellen Sonaly Silva Alves
hellensilva.estat@gmail.com
http://lattes.cnpq.br/4845253626067527
Introdução
Neste tutorial, daremos continuidade aos estudos em R e RStudio, avançando um pouco mais no trabalho com dados. O objetivo é apresentar conceitos fundamentais como a leitura de arquivos, o uso de data frames, a visualização de dados e algumas manipulações iniciais que fazem parte do dia a dia de quem trabalha com análise de dados em R.
O conteúdo foi desenvolvido especialmente para iniciantes, com explicações passo a passo e exemplos simples.
Caso você ainda não tenha acompanhado a Parte 1, é recomendável acessá-la antes de continuar, pois alguns conceitos básicos já foram apresentados lá: https://www.rpubs.com/Hellen_Silva/1384634
Data Frame
O que é um data frame?
Um data frame é uma das estruturas de dados mais importantes do R. Ele se parece com uma tabela, onde:
Cada coluna representa uma variável
Cada linha representa uma observação
Criando um data frame simples
Após executar o código abaixo, é criado um data frame chamado dados. No exemplo apresentado, o data frame possui três colunas: nome, idade e nota.
dados <- data.frame(
nome = c("Ana", "Bruno", "Carlos"),
idade = c(23, 30, 27),
nota = c(8.5, 7.0, 9.0)
)A coluna nome contém valores do tipo caractere, enquanto
as colunas idade e nota possuem valores
numéricos.
Os valores dentro da função c() correspondem aos dados de cada coluna. É importante que todas as colunas tenham o mesmo número de elementos, pois cada posição representa uma mesma observação. Por exemplo, o nome “Ana”, a idade 23 e a nota 8.5 pertencem à mesma linha do data frame.
Ao digitar apenas dados no console, o R exibe todo o conteúdo do data frame, permitindo visualizar os valores armazenados em cada coluna e linha.
## nome idade nota
## 1 Ana 23 8.5
## 2 Bruno 30 7.0
## 3 Carlos 27 9.0
No exemplo, temos um data frame com 3 linhas e 3 colunas.
Lendo data frames no R
Visualizando dados
A função head() é utilizada para visualizar as primeiras
linhas de um data frame. No exemplo abaixo, aplicamos a função ao data
frame chamado dados:
## nome idade nota
## 1 Ana 23 8.5
## 2 Bruno 30 7.0
## 3 Carlos 27 9.0
Ao executar esse comando, o R exibe, por padrão, as seis primeiras linhas do data frame.
Essa visualização inicial é importante para conhecer os dados, verificar se eles foram carregados corretamente e observar os valores das variáveis sem precisar mostrar todo o conjunto de dados.
No nosso caso, como o data frame é pequeno, todas as linhas são
exibidas, mas em conjuntos de dados maiores a função
head()facilita a inspeção rápida das informações.
Estrutura dos dados
A função str() é utilizada para mostrar a estrutura do
data frame, incluindo o tipo de cada variável presente nas colunas.
## 'data.frame': 3 obs. of 3 variables:
## $ nome : chr "Ana" "Bruno" "Carlos"
## $ idade: num 23 30 27
## $ nota : num 8.5 7 9
Com essa função, é possível verificar o tipo das variáveis do data frame, como caractere (chr) ou numérico (num), além do número de observações e variáveis existentes.
Resumo estatístico das variáveis
A função summary() apresenta um resumo estatístico das
variáveis do data frame.
## nome idade nota
## Length:3 Min. :23.00 Min. :7.000
## Class :character 1st Qu.:25.00 1st Qu.:7.750
## Mode :character Median :27.00 Median :8.500
## Mean :26.67 Mean :8.167
## 3rd Qu.:28.50 3rd Qu.:8.750
## Max. :30.00 Max. :9.000
Esse resumo inclui informações como valores mínimos, máximos, média e mediana para variáveis numéricas, além da contagem de valores para variáveis categóricas.
Importação de arquivos
Uma das tarefas mais comuns no R é a importação de dados externos, ou seja, a leitura de arquivos que estão salvos no computador para dentro do ambiente do R, onde poderão ser analisados e manipulados.
Importando arquivos .csv
Arquivos no formato .csv (Comma-Separated Values) podem
ser importados utilizando a função read.csv():
dados_csv <- read.csv("arquivo.csv")
Para que a leitura funcione corretamente, o arquivo deve estar localizado no diretório de trabalho (working directory) do R.
Para verificar qual é o diretório de trabalho atual, utilize:
getwd()
Caso seja necessário definir ou alterar o diretório de trabalho,
utilize a função setwd() informando o caminho da pasta onde
o arquivo está salvo:
setwd("caminho/do/diretorio")
Importando arquivos .txt
Arquivos de texto no formato .txt podem ser importados
com a função read.table(). No exemplo abaixo, o argumento
header = TRUE indica que a primeira linha do arquivo contém os nomes das
colunas:
dados_txt <- read.table("arquivo.txt", header = TRUE)
Importando arquivos .xlsx
Para importar arquivos do Excel (.xlsx), é necessário
instalar e carregar um pacote adicional. Um dos pacotes mais utilizados
para essa tarefa é o readxl.
Primeiro, realizamos a instalação do pacote (caso ainda não esteja instalado):
install.packages("readxl")
Em seguida, carregamos o pacote:
library(readxl)
Após isso, o arquivo pode ser importado utilizando a função read_excel():
dados_excel <- read_excel("arquivo.xlsx")
Visualização de dados
Uma forma simples e eficiente de explorar os dados é por meio da visualização gráfica. Gráficos ajudam a identificar padrões, tendências e relações entre as variáveis de maneira mais intuitiva.
Gráfico de barras
O gráfico de barras é utilizado para comparar valores entre diferentes categorias. No exemplo abaixo, o gráfico mostra as notas associadas a cada aluno:
Nesse gráfico, cada barra representa a nota de um aluno, enquanto os nomes exibidos no eixo horizontal correspondem aos valores da coluna nome.
Gráfico de dispersão
O gráfico de dispersão é utilizado para analisar a relação entre duas variáveis numéricas. No exemplo a seguir, é possível observar a relação entre idade e nota:
Cada ponto no gráfico representa um aluno, permitindo visualizar possíveis padrões ou associações entre as duas variáveis.
Primeiros tratamentos e manipulações de dados
Após conhecer a estrutura e visualizar os dados, é comum realizar algumas manipulações iniciais em um data frame, como selecionar colunas, selecionar linhas, filtrar observações e criar novas variáveis.
Selecionando colunas
Uma forma simples de acessar uma coluna específica de um data frame é
utilizando o nome da coluna com o operador $:
## [1] "Ana" "Bruno" "Carlos"
Outra forma é utilizando colchetes, informando o nome da coluna desejada:
## [1] 23 30 27
Ambas as formas permitem acessar os valores de uma coluna específica do data frame.
Selecionando linhas
Também é possível selecionar linhas e colunas específicas utilizando colchetes. O primeiro valor representa a linha e o segundo representa a coluna:
## nome idade nota
## 1 Ana 23 8.5
## [1] 23 30 27
Filtrando dados
Para filtrar os dados com base em uma condição, podemos utilizar expressões lógicas. No exemplo abaixo, são selecionados apenas os alunos com nota maior ou igual a 8:
## nome idade nota
## 1 Ana 23 8.5
## 3 Carlos 27 9.0
Criando novas colunas
Novas colunas podem ser criadas diretamente no data frame. No exemplo a seguir, é criada a coluna aprovado, que indica se o aluno obteve nota maior ou igual a 7:
## nome idade nota aprovado
## 1 Ana 23 8.5 TRUE
## 2 Bruno 30 7.0 TRUE
## 3 Carlos 27 9.0 TRUE
Essa nova coluna assume valores lógicos (TRUE ou FALSE), facilitando análises posteriores.
Conclusão
Neste tutorial, foram apresentados conceitos fundamentais para o trabalho com dados no R. Ao longo do conteúdo, aprendemos a criar e explorar data frames, importar dados de diferentes formatos, visualizar informações por meio de gráficos básicos e realizar manipulações iniciais, como seleção, filtragem e criação de novas colunas.