Primeiro, é necessário instalar o R. Você pode obter a última versão neste endereço https://cran.r-project.org/bin/windows/base/. Após a transferência, siga o passo a passo para a instalação.
Sendo a instalação do R bem sucedida, você pode obter o RStudio Desktop (versão gratuita) neste endereço https://rstudio.com/products/rstudio/download/ e seguir o passo a passo para a instalação.
A interface do RStudio, geralmente, é exibida em quatro painéis:
1. Source: A área de trabalho principal. Pode exibir várias janelas, com scripts, tabelas e outros conteúdos. Ao clicar em Run ou apertar os comandos Ctrl + Enter, dentro de um script, o conteúdo selecionado será enviado ao Console para ser executado.
2. Console: Todo código que você executar em um script será enviado ao Console, onde os resultados e avisos aparecerão. Você também pode escrever uma linha de código diretamente no Console.
3. Environment/History:
Environment: Ambiente de trabalho ativo. Todos os objetos e funções definidos devem aparecer no Environment. History: Exibe o histórico de cada linha de código executada.
4. Files/Plots/Packages/Help:
Files: Permite navegar pelos diretórios de trabalho. Plots: Exibe os gráficos, mapas e outras figuras produzidas. Packages: Permite o gerenciamento dos pacotes ativos e instalados. Help: Contém tutoriais e exibe ajuda, quando requerida.
Figura 1 - Interface RStudio
Na linguagem de programação R, os objetos são a unidade básica de análise. Eles referem-se a um pequeno espaço na memória RAM do computador onde um conjunto de valores serão armazenados. Geralmente usamos o operador <- ou = para definir um objeto.
O R suporta diferentes tipos de objetos, os mais comuns são:
- Vetor (vector): um conjunto unidimensional de valores da mesma classe.
- Matriz (matrix): um conjunto bidimensional de valores da mesma classe (geralmente, numérico).
- Tabela (data.frame ou tibble): um conjunto bidimensional de valores, organizados em linhas e colunas. Todos os valores de uma coluna possuem a mesma classe.
- Lista (list): um conjunto unidimensional de outros objetos (por exemplo, tabelas).
Nesta disciplina vamos explorar dados em formato de vetor e tabela. É nesse formato que os bancos de dados são geralmente disponibilizados. As tabelas de bancos de dados sempre possuem uma estrutura comum: os valores são organizados em linhas (observações) e colunas (variáveis), sendo consideradas um tipo de dados estruturados. As observações referem-se à unidade de análise (pessoas, domicílios, municípios etc.), enquanto as variáveis são os atributos dessa variável e possuem sempre a mesma classe (caractére, numérico, fator, dentre outros).
Como já informado, o objetivo dessa disciplina não será aprender a linguagem de programação R, assim, seguem abaixo algumas funções (outras serão vistas nos próximos roteiros) e operadores básicos para que vocês possam começar a realizar operações básicas.
funções
sum(): soma
round(): arredondamento de x com um número específico de decimais
ceiling(): arredondamento de x para um número inteiro para cima
operadores matemáticos
Adição: +
Subtração: -
Multiplicação: *
Divisão: /
Módulo: %%
Divisão por inteiro: %/%
Exponenciação: ^ ou **
operadores lógicos
x == y: x é igual a y?
x != y: x é diferente de y?
x > y: x é maior que y?
x >= y: x é maior ou igual a y?
x < y: x é menor que y?
x <= y: x é menor ou igual a y?
x & y: x e y são verdadeiros?
x | y: x ou y são verdadeiros?
!x: negativa de x.
is.na(x): x é igual a NA?
!is.na(x): x é diferente de NA?
Clique em New file e em seguida em R Script ou aperte os comando Ctrl + Shift + N para criar um novo script, onde você vai salvar a rotina de análise de dados.
É muito importante salvar as rotinas em scripts, conforme o projeto de análise de dados que está desenvolvendo. Assim, você pode organizar os passos realizados para cada fase da análise (descritiva básica, descritiva com medidas, inferencial introdutória ou avançada, etc). Você pode salvar todas as rotinas de comandos em um único script, contudo, o script pode ficar muito extenso e pode ser fácil se perder.
IMPORTANTE: Todo o conteúdo após o símbolo # (jogo da velha/hashtag), recebe destaque e é considerado um comentário. Isso significa que todo o conteúdo após o # não será executado pelo R. É comum adicionar comentários que explicam o código com o uso de #.
O diretório de trabalho refere-se à pasta onde você está guardando a sua base de dados e outros arquivos.
SEMPRE que você abrir o RStudio, um diretório de trabalho será definido automaticamente. Recomendo fortemente que você confira qual o seu diretório de trabalho, você pode executar a função:
getwd()
## [1] "D:/OneDrive"
No exemplo acima, o diretório de trabalho retornado foi “D:/OneDrive”. Suponhamos que os dados que você está trabalhando estão salvos em outro diretório. Para definir o diretório de trabalho que você deseja, usando a interface, clique em Session, Set Working Directory e Choose Directory. Você também pode usar os comandos Ctrl + Shift + H e escolher a pasta onde você está salvando os seus arquivos.
Outra opção que pode já estar no seu script é usar a função setwd(). A função é executada com um argumento para definir o diretório de trabalho, de forma semelhante ao exemplo abaixo.
setwd("C:/Users/Estatistica/Aula_R")
Para conferir se deu tudo certo, você pode executar a função getwd() novamente para visualizar o seu diretório de trabalho.
getwd()
## [1] "C:/Users/Estatistica/Aula_R"
ATENÇÃO: quando você copiar e colar o caminho do diretório certifique-se de que as barras estão corretas “/”.
DICA: a definição do diretório de trabalho é uma etapa opcional, mas que pode economizar muito tempo no processo de análise de dados. Quando você for importar ou exportar uma base de dados, ao invés de escrever o caminho completo (por exemplo, “C:/Users/Estatistica/Aula_R/renda.csv”), você pode escrever apenas metade do caminho (no exemplo, “Aula_R/renda.csv”).
No decorrer das aulas práticas você pode precisar de ajuda para entender alguns comandos. O importante é buscar sanar suas dúvidas para que o processo de aprendizado seja completo. Para tanto, você pode contar com o HELP.
Help também exibe a documentação de cada função, que pode ser acessada com o uso das funções help() ou ?.