Os principais objetivos deste post são:
Apresentar uma visão geral do que é o R e o RStudio;
Levantar alguns pontos que motivam a utilização do R;
Apresentar os links para download do R e RStudio
O R é uma linguagem de programação estatística e um programa gratuito, aberto a livre acesso, que tem ganhado bastante popularidade em diversas áreas da ciência. O R foi desenvolvido pelos estatísticos George Ross Ihaka e Robert Clifford Gentleman, como uma derivação da linguagem de programação estatística S.
Achei interessante a história da linguagem R e resolvi descrever rapidamente um pouco do que é possível encontrar na internet a respeito. Em seus primórdios, o R surgiu a partir de uma iniciativa dos professores (Ross Ihaka e Robert Gentleman) em utilizar a linguagem de programação para ensino em seu laboratório de informática nos idos de 1993. Inicialmente, foi desenvolvida como uma implementação de uma linguagem existente à época denominada Linguagem S, criada por John Chambers dos Laboratórios Bell.
Após compartilharem algumas cópias binárias do R, Ross Ihaka e Robert Gentleman receberam uma série de sugestões de usuários, dentre elas uma do Professor Martin Mächler, do Instituto de Tecnologia da Universidade Federal de Zurique, que motivou os idealizadores da linguagem R a fazerem seu lançamento como uma linguagem aberta e gratuita, sob os termos da Free Software Foundation, uma fundação internacional sem fins lucrativos que promove a distribuição de softwares livres. Para formalizar e padronizar o lançamento de uma linguagem livre pode-se utilizar uma Licença Pública Geral (GNU).
Assim, motivados pelas sugestões que receberam, especialmente a do professor de Zurique, Ross Ihaka e Robert Gentleman decidiram lançar em junho de 1995 o código fonte aberto para uso livre. Desde seu lançamento a linguagem tem sido mantida por um grupo de colaboradores voluntários que disponibiliza toda a documentação do avanço e aprimoramento da linguagem em um plataforma na internet que comento mais a frente.
Abaixo alguns links interessantes com um pouco mais de história da linguagem:
Matéria do The New Work Times
Documento com uma Breve Descrição de como tudo começou
Vídeo com uma entrevista com o John Chambers, fundador da Linguagem S em que ele fala a respeito da Linguagem S e R
Desde o seu lançamento, o uso da linguagem R tem crescido consideravelmente, sendo utilizada hoje pela maioria das grandes instituições de pesquisa, se tornando bastante popular no universo acadêmico. O R também tem sido muito empregado no mercado e na indústria, empresas como Google, a gigante farmacêutica Pfizer, Microsoft, Uber, IBM, Airbnb, American Express, Citibank, entre outras são usuárias do R.
A popularidade da linguagem R pode ser verificada se observarmos o índice TIOBE da comunidade de programação. Este indice consiste em um indicador da popularidade das linguagens de programação e é calculado com base na utilização da linguagem por técnicos e engenheiros internacionalmente reconhecidos, pelo número de pesquisas da linguagem nos sites de buscas como Google, Yahoo e Bing, pelo número de workshops, cursos e treinamentos promovidos, etc.(Maiores detalhes de como este índice é calculado podem ser consultados aqui)
O índice TIOBE é publicado mensalmente para que os programadores verifiquem as tendências de utilização das linguagens e possam se manter atualizados.
Pelo histórico do site, em 2008 a linguagem R estava na posição 73, tendo atingindo a posição 8 no ano de 2018, quando esteve melhor ranqueada, o que mostra o seu rápido crescimento nos últimos anos. Verifica-se pelo histórico que a linguagem R e MATLAB têm disputado acirradamente posições neste ranque.
Dentre aqueles que mais me entusiasmam a adotar o R como linguagem para realizar pesquisas na área de recursos hídricos estão o fato de ser uma linguagem livre e gratuita, permitir funcionalidades avançadas para manipulação de dados e geração de gráficos com amplo suporte e documentação gratuita livre facilmente encontrada na internet.
Abaixo pontuo alguns aspectos que motivam a utilização do R.
Gratuito, simples e intuitivo quando comparado com várias linguagens;
Atende diversas plataformas (UNIX, WINDOWS, MAC OS);
Capacidade de extensão do conteúdo (milhares de pacotes - packages disponíveis na rede CRAN- Comprehensive R Archive Network);
Novas metodologias estatísticas usualmente chegam primeiro ao R;
Fantásticas funcionalidades gráficas: Fácil de implementar e extremamente flexíveis com excelente resolução para publicação;
Crescimento vertiginoso e vem se tornando uma linguagem universal para análise de dados;
Livros, revistas e artigos da comunidade científica têm apresentado cada vez mais publicações com funcionalidades do R;
Muito material na internet (fórums, pacotes de rotinas implementadas, etc);
Grande eficiência na manipulação de dados e facilidades de armazenamento;
Operadores simples já implementados para cálculos com vetores e matrizes;
Grande ferramental integrado para análise de dados;
Facilidades gráficas para análise de dados, permitindo impressões rápidas de gráficos diretamente na tela do programa ou exportação para vários formatos;e
Linguagem bem desenvolvida, simples e eficaz que inclui estrutura com condicionantes, loops, funções recursivas, facilidades de saída e entrada de dados.
O R pode ser baixado diretamente de um “portal” aberto na internet denominado CRAN (The Comprehensive R Archive Network) onde todo o controle de versões do R e diversos documentos relacionados são arquivados gratuitamente. O CRAN é uma rede gratuita de armazenamento de arquivos, ou rede ftp (File Transer Protocol) com diversos servidores espalhados no mundo que armazenam cópias atualizadas e controles de versões de toda a documentação relacionada ao R.
Para quem achar o site CRAN (The Comprehensive R Archive Network) um pouco confuso (depois de clicar no link do site), coloco abaixo umas capturas de tela de onde clicar para chegar no link final para download (que vai depender do seu sistema operacionar: Linux, OS X-Mac ou Windows). Nas capturas de tela que coloquei abaixo, usei como exemplo usuários de Windows, mas quem tiver outro sistema operacional, basta repetir a mesma sequência após clicar no seu sistema operacional.
Após fazer o download do arquivo, basta clicar no arquivo baixado, avançar nas telas de instalação normalmente como qualquer outro programa, selecionar o local desejado para armazenamento do programa, selecionar idioma, aceitar os termos de uso, etc (se não tiver nenhuma necessidade específica de armazenamento basta ir clicando ok em tudo e avançar).
Ao final da instalação abra o R e verifique se o programa abriu normalmente, você deve abrir uma tela similar a esta abaixo. Em seguida, feche o programa e seguimos em frente para instalar o RStudio no próximo passo.
O RStudio é um programa que permite uma interface de trabalho mais amigável para rodar o R. Em vez de utilizar o ambiente de trabalho do R, que na verdade seria um simples bloco de notas onde digitaríamos o código e depois acionaríamos o R para ler e rodar este código (ou nosso scritp), é mais conveniente utilizar uma interface de desenvolvimento que possui uma série de facilidades que não só melhoraram a visualização do código, mas facilitam a instalação de pacotes, monitoramento de erros no código, visualização de dados e gráficos, dentre outras facilidades. Existem outras interfaces de desenvolvimento que rodam o R como o Eclipse com StaET, o ESS, o Togaware e o Regedit. Porém, aqui abordaremos, exclusivamente, o RStudio.
O RStudio fornece a maioria dos recursos necessários e desejáveis para uma interface gráfica amigável tornando bem mais fácil e mais produtivo o uso do R. Diferentemente de algumas das outras plataformas citadas anteriormente, o RStudio está disponível para outros sistemas operacionais (Linux e IOS -Mac) além do Windows, sendo mais fácil e intuitivo de aprender, com vasta documentação gratuita na internet.
RStudio pode ser baixado a partir deste link. Utilizaremos a versão Free para Desktop. Após clicar no link acima, na página que surgir clique em Download no campo da versão Desktop e, em seguida, selecione o seu sistema operacional. Novamente, deixei abaixo a sequência de cliques para fazer o download, tendo selecionado a versão para o sistema operacional Windows.(OBS: O RStudio só pode ser instalado depois do R já ter sido instalado.)
Tal como efetuado para o R, após fazer o download do arquivo, basta clicar no arquivo baixado, avançar nas telas de instalação normalmente como qualquer outro programa, selecionar o local desejado para armazenamento do programa, selecionar idioma, aceitar os termos de uso, etc (se não tiver nenhuma necessidade específica de armazenamento basta ir clicando ok em tudo e avançar).
Nesta seção descrevo superficialmente as principais telas de trabalho do RStudio. Mais detalhes são facilmente encontrados com uma pesquisa rápida na internet.
O livro Getting Started with RStudio apresenta uma descrição bem detalhada desta plataforma. Neste link tem um video mais básico que também permite uma noção geral da interface. A Data Camp também disponibiliza alguns cursos onlines.
Após fazer o download do RStudio e abrir o programa, a primeira tela inicial que surge é replicada nas figuras abaixo. A Tela inicial contém 3 painéis visíveis e um escondido. Para ver o painel escondido, clique no ícone superior do painel da esquerda (Marcador vermelho indicando na figura abaixo). Em seguida, os 4 painéis ficarão visíveis. Cada painel possui lapelas/abas auxiliares que permitem alterar o tipo de informação mostrada em cada painel.
Caso não tenha visualizado todos os painéis basta ir em Tools\(\rightarrow\)Panes\(\rightarrow\) Show All Panes
Bem, antes de nos aventurarmos nos primeiros passos no R, vamos dar uma olhada geral no que algumas das lapelas disponibilizadas nos painéis mostrados acima significam.
A lapela Environment mostrada no Painel 2 da Figura acima é onde as variáveis/objetos criados e as bases de dados importadas ficam indicados. Por exemplo, se criarmos uma matriz chamada A com vários elementos dentro, o nome desta matriz aparecerá nesta lapela e se clicarmos no nome, uma nova janela se abrirá no Painel 1 mostrando um tabela com os elementos desta matriz.
O Painel 1 mostra o script ou tela de digitação onde o código será desenvolvido. É possível abrir outras telas de script simultaneamente, para tal, no menu do RStudio, basta ir em File\(\rightarrow\)New File\(\rightarrow\) R Script, em seguida uma nova tela de Script surgirá. Para atribuir um nome a este script e armazena-lo em uma pasta de trabalho, basta ir em File\(\rightarrow\)Save as, escolher a pasta de destino, digitiar um nome para o Script, neste caso salvei como Primeiro Script . As Figuras abaixo mostram estes procedimento.
A lapela History mostrada no Painel 2 é onde todo o histórico de comandos ficará armazenado.
A lapela Connections no Painel 2 permite a conexão com banco de dados existentes.
A lapela Files no Painel 3 é uma espécie de gerenciador de arquivos como o windows explorer e permite visualizar as pastas e arquivos que estão dentro da pasta corrente de trabalho do R ou working directory. Ou seja, todos os comandos para leitura ou gravação remeterão à pasta configurada como pasta de trabalho/ working directory. Mais a frente discutiremos um pouco melhor isto.
A lapela Plots no Painel 3 é onde os gráficos gerados são mostrados. Após o gráfico ser gerado nesta lapela é possível salvar a figura gerada no gráfico separadamente.
A lapela Packages no Painel 3 mostra a lista de pacotes que já estão disponíveis junto com os arquivos baixados durante a instalação do RStudio. Para instalar um pacote de interesse basta clicar na check box e automaticamente a função library() será executada para instalar o pacote e aparecerá no Painel 4 na lapela Console.
Caso o pacote não esteja disponível na lista, pode-se clicar em Install, selecionar a opção Repository (CRAN), digitar o nome do pacote e clicar em install. É necessário estar conectado na internet para que o programa possa acessar o repositório do R.
É também possível instalar pacotes que foram desenvolvidos e não estão disponibilizados no repositório do CRAN. Os pacotes são salvos em um formato .zip, .taz.gz. Assim, após baixar o pacote desejado ou criá-lo, para carregá-lo, basta ir em Install e no campo Install from selecione a segunda opção Package Archive File (.zip; .tar.gz) e, em seguida, clique em Browse para selecionar o arquivo do pacote. Em seguida , basta clicar em Install.
Os pacotes consistem em rotinas de códigos compostos por um conjunto de funções específicas desenvolvidas por terceiros que podem ser úteis para alguma rotina desejada. O número de pacotes em R tem crescido expressivamente. Certamente, é possível encontrar pacotes prontos com rotinas de códigos que já executam a maioria das tarefas que temos interesse em fazer.
Todo pacote vem como descrição e exemplos para todas as funções que o integram. Para acessar esta documentação basta clicar no nome do pacote e explorar os links das funções existentes.
A lapela Help no Painel 3 é acionada quando se busca a consulta a documentação de algum pacote ou função específica.
A lapela Viewer no Painel 3 é uma janela de pré-visualização de outras funcionalidades que o RStudio possui, por exemplo, gerar páginas htmls.
A lapela Console no Painel 4 é onde o código digitado no Painel 1 (Script) é efetivamente executado.
A lapela Terminal no Painel 4 mostra a versão do sistema operacional que está sendo utilizada o diretório de trabalho.