Importando dados no R

Autor

Afiliação

Felipe Madruga

Universidade Federal do Pampa - UNIPAMPA

Nesta parte vamos tratar do processo de importação das bases de dados que serão análisadas para dentro do R. Uma etapa fundamental em toda análise, mas que pode ser uma dor de cabeça para aqueles que estão começando no R. Vamos aprender a como importar diferentes tipos de arquivos, nas extensões mais comuns aos quais os dados são disponibilizados. Contudo, vamos primeiramente tratar de como organizar melhor nosso ambiente de trabalho com vistas ao trabalho com as bases de dados.

1 Organização da pasta de trabalho

A importação de dados para o R pode ser uma das etapas mais traumáticas para quem começa a utilizar o software. Por isso, com vistas a reduzir esse custo de entrada, vamos primeiramente aqui tratar de organizar uma pasta em nosso computador que vamos chamar de nosso diretório de trabalho.

Será nessa pasta que vamos guardar todas as informações que forem uteis para nós, desde as bases de dados, até os scripts criados. Isso será bastante simples, envolvendo algumas etapas. A primeria delas será identificar em qual local do seu computador você gostaria de criar essa pasta.

Na imagem abaixo é possível perceber que estou criando uma nova pasta de trabalho dentro de um diretório do meu computador chamado documentos. O lugar que você escolher é o de menos, pode ser em qualquer local, poderia ser até mesmo na área de trabalho.

Também é possível perceber que para criar uma nova pasta dentro do diretório documentos basta clicar com o botão direito do mouse, selecionar Novo/Pasta.

Depois que a pasta é criada, devemos dar um nome para ela. Qualquer nome vai servir, o importante é que lembre de atender alguns critérios que vai facilitar nossa vida, como dar nomes curtos, com letras todas minúsculas e sem espaços entre o nome das pastas, ou então utilizar _ para separar as palavras, como indicado na imagem abaixo onde foi dado o nome de pasta_minicurso.

Depois de criada a pasta devemos inserir nossos dados dentro dela, os mesmos que vocês tem acesso na página do Moodle. Eu recomendo que os dados sejam inseridos dentro de um subpasta do nosso dirétorio de trabalho pasta_minicurso, aqui vou dar o nome da subpasta de dados_brutos.

Todos as bases de dados que vão ser criadas serão inseridas nessa pasta, como mostrado abaixo.

Agora é voltarmos ao R para acertarmos algumas configurações.

1.1 Definindo o diretório de trabalho no R

Dentro do R precisamos indicar corretamente em que diretório dentro do computador está nossa pasta criada. Para isso, vão existir algumas funções que vamos utilizar dentro do R para identificar qual é o diretório atual de trabalho que o R está utilizando, e qual deveria ser o diretório que ele deve utilizar.

Podemos identificar qual o diretório de trabalho atual no R por meio da seguinte função:

# identificando o diretório de trabalho atual do R
getwd()

Como é possível perceber pelo resultado mostrado no Console, esse diretório é diferente daquele no qual criamos nossa pasta de trabalho. Precisamos, portanto, definir o diretório no R para que seja o mesmo onde a pasta_minicurso está.

Antes de definirmos qual a função fará isso no R, precisamos pegar o caminho da pasta em nosso computador, isso é relativamente fácil, como mostra a imagem abaixo.

O endereço, que aparece para mim como C:\Users\felip\Documents\pasta_minicurso vai precisar sofrer um pequeno ajuste. Sempre vamos ter que substituir \ por / no endereço do diretório para que a pasta seja reconhecido no R. Fazendo isso, nosso caminho da pasta fica: C:/Users/felip/Documents/pasta_minicurso.

Novamente no R, vamos utilizar a função setwd() para definir esse caminho como nosso diretório de trabalho no R. Fazemos isso como no código abaixo:

# definindo o novo diretório de trabalho
setwd("C:/Users/felip/Documents/pasta_minicurso")

Dentro da função setwd() o caminho deverá sempre ser indicao entre aspas " ", caso contrário não funcionará.

Para se certificar de que estamos agora no diretório correto, basta utilizar a função getwd(), caso o resultado mostrado no Console mostrar o caminho definido acima, sinal de que estamos dentro de nossa pasta.

Atenção

Você vai ter um erro se estiver tentando definir seu diretório de trabalho de alguma dessas maneiras:

setwd("C:\Users\felip\Documents\pasta_minicurso")

setwd(C:/Users/felip/Documents/pasta_minicurso)

Uma vez que estejamos em nosso diretório de trabalho, vamos criar, ou pedir para salvar, nosso script de trabalho. Quando fizer isso, ele vai ficar salvo dentro de sua pasta de trabalho e cada vez que precisar acessar, basta ir em sua pasta e pedir para entrar nele.

Lembre de organizar o seu script com comentários a respeito do que você está fazendo, num primeiro momento é importante para seu aprendizado.

O próximo passo será importar os dados para o R e começar nossas análise.

2 Importando nossos dados para o R

Já temos uma pasta de trabalho que definimos em algum diretório em nosso computador, o que nos permite agora fazer a importação dos dados que estão nela. Contudo, para que um dado seja importado no R ele terá que ser feito via alguma função, e no geral essas funções precisam ser carregadas por meio de pacotes.

2.1 Instalando e carregando pacotes no R

O R funciona em cima da ideia de aplicarmos funções sobre nosso dados. Essas funções sempre vão vir naquilo que chamamos de pacotes. Esse pacotes precisam ser importados para o R e depois carregados para que suas funções estejam disponíveis para uso.

O R por ser um software livre, todos os pacotes disponíveis são gratuítos, o que certamente é uma das grandes vantagens. São milhares de pessoas trabalhando no desenvolvimento de diversos pacotes, cada um com um objetivo específico. Nesse sentido, vamos certamente utilizar diversos pacotes porque cada um deles tem uma função específica que vai nos servir para determinada situação. No caso de importar os dados, vamos utilizar alguns pacotes para utilizar as funções contidas neles.

Todo pacote precisa ser primeiramente instalado no R, adivinhe, por meio de uma função. Vamos utilizar sempre a função install.package() para instalar qualquer pacote que precisarmos no R. Abaixo vamos instalar alguns dos pacotes que serão precisos para carregar os dados de nossa pasta.

# instalando pacotes
install.packages("tidyverse")

install.packages("readxl")

Acima pedimos para carregar dois pacotes, tidyverse e readxl. Como você pode perceber pelas linhas de código, foi preciso colocar entre aspas esses nomes para podermos carregar. Todo pacote precisa ser carregado uma única vez apenas, por isso, depois que você carregar um pacote deverá, eu indico, comentar a linha de código, como mostrado abaixo.

# instalando pacotes
# install.packages("tidyverse")

# install.packages("readxl")

Isso é feito para que você não instale o pacote acidentalmente toda vez que for usar seu script.

Uma vez instalado o pacote ele não significa que as funções contidas nele estão prontas para serem usadas. Para fazer isso, vai ser preciso carregar o pacote com a função library(), como indicado abaixo.

# carregando os pacotes a serem utilizados
library(tidyverse)
library(readxl)

Como você pode perceber, para carregar os pacotes não é necessário utilizar as aspas. Além disso, esses pacotes vão precisar ser carregados sempre, toda vez que você for utilizar seu script.

Esses são os passos iniciais que você precisa seguir, nosso próximo ponto é aprender qual função utilizar para importar.

2.2 Importando arquivos no formato excel

O processo de importação é simples, basicamente vamos precisar identificar na pasta de trabalho onde estão os nossos dados e indicar isso dentro da função que faz a importação dos dados.

No caso dos arquivos de excel que possuem extensão .xls ou xlsx vamos utilizar as seguintes funções: read_xls() e read_xlsx().

Na subpasta dados_brutos o arquivo que vamos importar é pib.xlsx o que vai exigir o código mostrado abaixo.

# importando nossa base de dados 
read_xlsx("dados_brutos/pib.xlsx")

É importante perceber que no caso do código acima, ele sempre precisa vir entre aspas e especificar a subpasta que os dados estão. Além disso, não podemos esquecer de indicar a extensão de nosso arquivo.

Quando executado, esse código importa os dados apenas para a tela do Console do R, mas na verdade queremos que ele fique armazenado em um objeto dentro do Environment. Assim, para que esse arquivo importado possa ser acessado por meio de um objeto vamos criar um nome para o objeto e aplicar o operador <-, como mostrado abaixo.

# criando um objeto para nossos dados a serem carregados/importados
dados <- read_xlsx("dados_brutos/pib.xlsx")

Agora nosso objeto foi criado e pode ser acessado com a função view(dados).

Caso antes de começarmos a importação não tivesses definido um diretório de trabalho, como foi o procedimento escolhido aqui, teríamos que ter indicado na função read_xlsx() todo o diretório, como será mostrado no código abaixo.

# maneira de importar quando não indicamos um caminho com `setwd()`
dados <- read_xlsx("C:/Users/felip/Documents/pasta_minicurso/dados_brutos/pib.xlsx")

2.3 Importando arquivos no formato .csv

Vão existir duas funções para importar aquivos .csv, isso porque cada uma delas vai ser utilizada de acordo com o separador definido nos dados, ou seja, se os valores foram separados por , ou ;.

No caso dos arquivos separados por vírgula, mais comuns em dados importados de sites extrangeiros, vamos utilizar a função read_csv(). No caso de arquivos separados por ponto e vírgula, a função utilizada será read_csv2(), como indicado no código abaixo utilizado na base de dados pib.csv.

# importando uma base de dados em .csv
dados_1 <- read_csv2("dados_brutos/pib.csv")

No geral, saber qual das duas funções utilizar vai exigir saber qual o separador os valores da base utilizaram, no geral uma informação indicada no site onde é feito o download da base. Caso não tenhamos essa informação, a tentativa e erro vai fornecer a resposta, uma vez que, se por infelicidade utilizarmos a função incorreta não teremos a importação dos dados feita de maneira correta, como podemos comprovar ao utilizarmos a função read_csv() com nossa base de dados pib.csv.

# importação que não vai funcionar
dados_3 <- read_csv("dados_brutos/pib.csv")

Lembre de que ao importar bases de dados distintas precisamos criar nomes dos objetos diferentes que serão associados a essas bases, caso contrários vamos salvar uma sobre a outra e perder informação.

Uma dica rápida para descobrir qual o separador é pedir para abrir nossa base de dados com o Bloco de notas, como pode ser visto na imagem abaixo.

2.4 Importando arquivos no formato .rds

Os arquivos que estão na extensão .rds, como o arquivo na subpasta dados_brutos chamado nflx.rds, são arquivos que foram criados pelo R. Ele podem ser carregados por meio da seguinte função mostrada no código abaixo, não tendo mistério algum na maneira como devemos proceder para fazer sua importação para o R.

# importando os arquivos na extensão .rds
d <- read_rds("dados_brutos/nflx.rds")

Atenção

Os erros mais comuns que você pode cometer ao importar dados para o R podem ser os seguintes:

Esquecer de colocar a extensão do arquivo:

dados <- read_xlsx("dados_brutos/pib")

Esquecer de mudar \ para /:

dados <- read_xlsx("dados_brutos\pib.xlsx")

Esquecer de colocar o argumento da função entre parênteses:

dados <- read_xlsx(dados_brutos\pib.xlsx)

Esquecer de criar um objeto para os dados importados, assim ele só será mostrado na tela do Console do R:

read_xlsx("dados_brutos/pib.xlsx")

Esquecer de colocar a subpasta que contem os dados no caso de eles estarem em uma subpasta:

dados <- read_xlsx("pib.xlsx")

Utilizar uma função errada para importar os dados:

dados <- read_csv2("dados_brutos/pib.xlsx")