Importação de dados
Introdução
Na aula passada, nós vimos como o R pode ser usado como uma calculadora e obtivemos o valor de \(\epsilon Nd\) para uma amostra. As razões 143Nd/144Nd e 147Sm/144Nd da amostra e do reservatório CHUR foram fornecidas previamente e inseridas diretamente no código. No entanto, na prática, quase sempre lidamos com conjuntos de dados armazenados em planilhas ou bancos de dados. Nesta aula, vamos aprender como importar dados do Excel para dentro do R.
Pacotes
Para trabalhar de forma eficiente com esse tipo de informação, precisamos ir além das funções básicas do R. Isso é feito por meio dos pacotes: coleções de ferramentas adicionais desenvolvidas pela comunidade que expandem as capacidades do R, permitindo importar dados, organizar tabelas, produzir gráficos, realizar análises estatísticas e muito mais.
Instalando pacotes
Você pode instalar pacotes em R usando a interface gráfica do RStudio ou diretamente por código. Para instalar usando a interface gráfica, acesse o painel lateral do RStudio e localize a janela “Packages”. Em seguida, clique na aba “Install”. Uma nova janela será aberta com um campo onde você pode digitar o nome do pacote que deseja instalar. Para concluir, basta clicar no botão “Install”.
Para instalar um pacote por meio do console, você pode executar o seguinte comando:
install.packages("NOME_DO_PACOTE")Nesta aula vamos trabalhar com o pacote readxl, que nos permite importar arquivos do Excel. Instale-o no seu R seguindo as instruções acima.
Carregando pacotes
Caso desejemos utilizar um pacote em uma sessão de trabalho, devemos primeiramente carregá-lo. Isso pode ser feito tanto pela interface gráfica do RStudio quanto pelo console. Na janela “Packages” do RStudio, há uma lista com todos os pacotes instalados no seu sistema. Para carregar um pacote específico, basta marcá-lo. Você pode utilizar a lupa na aba superior dessa janela para facilitar a localização do pacote.
Alternativamente, você também pode executar o seguinte comando no console, com as devidas modificações:
library(NOME_DO_PACOTE)Tente carregar o pacote readxl, que você acabou de instalar, seguindo as instruções acima.
Documentação de pacotes
Para saber mais sobre o pacote que você instalou, você pode usar os seguintes comandos:
?NOME_DO_PACOTEou
help("NOME_DO_PACOTE")Modifique um dos comandos acima e execute-o no console do RStudio para saber mais sobre o pacote readxl. Que tipo de informação podemos obter? Quais funções esse pacote contêm?
Documentação de funções
De maneira similar ao que fizemos acima, podemos descobrir mais sobre uma função utilizando os seguintes comandos:
?NOME_DA_FUNÇÃOou
help("NOME_DA_FUNÇÃO")Até então as funções que utilizamos foram funções base, ou seja, funções que são carregadas quando iniciamos o R, como por exemplo: print() e exp().
No entanto, para importar dados de uma planilha do Excel, usaremos a função read_excel() do pacote readxl.
Modifique um dos comandos acima e execute-o no console do RStudio para saber mais sobre essa função. Quais argumentos ela leva? Qual argumento é obrigatório?
Caminhos
Como vimos acima, a função read_excel() requer que o caminho do arquivo seja fornecido. Suponhamos que você tenha um arquivo cujo caminho completo seja:
"C:/Documentos/R/arquivo.xlsx"Você pode utilizar a função read_excel() da seguinte maneira:
meus_dados <- read_excel("C:/Documentos/R/arquivo.xlsx")Observação: no Windows, usa-se
\para separar os diretórios, porém em R usamos/, já que o símbolo\tem um outro propósito.
Diretório de trabalho e caminhos relativos
No exemplo acima, nós usamos o caminho completo do arquivo. No entanto, em R é bastante comum trabalharmos com caminhos relativos ao diretório de trabalho.
O diretório de trabalho é a pasta onde o R irá procurar por arquivos e também salvá-los. Você pode ver qual diretório está sendo usado pelo R usando a função getwd().
Copie e cole o código abaixo no console do RStudio:
getwd()Uma boa prática é criar uma pasta para o projeto no qual você esteja trabalhando e defini-la como o diretório de trabalho. Você pode fazer isso usando a interface gráfica do RStudio ou por meio do console.
No RStudio, basta ir em Session -> Set Working Directory -> Choose Directory…
No console, basta executar o comando abaixo, com as devidas modificações:
setwd("C:/caminho/para/minha/pasta")Agora, suponhamos que você tenha um arquivo no seu computador que esteja no seguinte caminho:
"C:/Usuário/Documentos/Curso/arquivo.xlsx"Se você definiu a pasta “Documentos” como diretório de trabalho, não precisa escrever o caminho completo do arquivo para acessá-lo. Basta escrever o caminho em relação à pasta “Documentos”:
"Curso/arquivo.xlsx"Caso você tenha definido a pasta “Curso” como diretório de trabalho, o caminho relativo é apenas:
"arquivo.xlsx"Importando dados do Excel
Agora chegou a hora de combinar tudo o que aprendemos. Nós vamos trabalhar com um conjunto de dados de química mineral de um trabalho de Kausch, Hansteen, e Bousquet (2026). O artigo foi publicado pelo jornal Lithos e é de livre acesso. Você pode obter os dados em questão acessando este link e baixando o Supplementary material 2.
Após, escolha uma pasta e a defina como diretório padrão. Mova o arquivo que você baixou para essa pasta. Assim, usando o caminho relativo, você pode importar os dados do arquivo com o seguinte código:
Lembre-se que o código acima não gera resultado no console, para isso nós temos que usar a função print():
No entanto, há um limite do que pode ser visto no console usando a função print(). Para tabelas longas, a função str() funciona melhor pois ela mostra de forma compacta e organizada a estrutura de qualquer objeto em R:
Observação: um objeto em R é qualquer dado armazenado na memória durante uma sessão. No nosso caso, nós criamos a variável
mineraispara se referir a um conjunto específico de dados de química mineral que está armazenado na memória. Na prática, essas duas palavras são usadas de forma intercambiável com bastante frequência, embora haja essa distinção conceitual.
Você também pode visualizar a tabela dentro do RStudio. Copie e cole o comando abaixo no console do RStudio:
View(minerais)Você também pode usar a função print() de forma implícita, apenas digitando o nome da variável. Copie o código abaixo e cole-o no console do RStudio:
mineraisNesta página interativa, quando exibimos uma tabela sem usar a função print(), ela aparece em um formato semelhante à função View() do RStudio. Execute o código abaixo e observe o resultado. A partir de agora, adotaremos esse tipo de visualização nos exemplos realizados no navegador.
Exercício 1
A planilha com a qual estamos trabalhando tem 4 abas. Qual aba foi importada? Por quê?
Complete o código abaixo para importar cada uma das abas como uma variável diferente:
- Muitas vezes dados geoquímicos são fornecido com a extensão
.csv. Nesta página, há um arquivo pré-carregado com o nome “flights.csv”. O que acontece quando você tenta abri-lo com a funçãoread_excel()? Pesquise qual função deve ser utilizada nesse caso e modifique o código abaixo para conseguir importar corretamente o arquivo “flights.csv”. A qual pacote pertence a função que você usou?
Acessando colunas
Vamos continuar trabalhando com a variável minerais que havíamos definido antes. Para saber quais colunas estão presentes nessa tabela, você pode utilizar o seguinte comando:
Para ver os dados de uma coluna específica, podemos usar o símbolo $:
Se o nome da coluna tem espaços em branco, você deve escrevê-lo dentro de aspas:
Podemos também criar uma nova coluna. Por exemplo, vamos criar uma coluna chamada “Álcalis wt%” que será a soma de “Na2O wt%” e “K2O wt%”:
Exercício 2
Execute os códigos abaixo e responda as perguntas.
- O que significa
NAem R?
- Quando usamos a função
str(), que informações podemos ver sobre a nossa tabela? O que são chr e num? Como eles se diferenciam?
Considerações finais
Nesta aula, utilizamos mais recursos da interface gráfica do RStudio, entendemos alguns conceitos básicos e aprendemos a importar dados de planilhas do Excel para dentro do R. Nem todas as tabelas serão como a que trabalhamos hoje. Algumas vão precisar ser melhor organizadas, o que aprenderemos a fazer em aulas futuras.
A importação é apenas o primeiro passo. Para analisar dados com segurança, precisamos também entender como o R interpreta diferentes tipos de informação. Na próxima aula, discutiremos os diferentes tipos de dados e como eles são organizados em estruturas distintas dentro do R.