arx combinatoria v2

Guilherme Ferreira

15/12/2019


Introdução

Arx combinatoria é um conjunto de ferramentas baseado em awk, R e Unix, úteis para manipulação de dados. Awk é uma linguagem de programação projetada para lidar com processamento de textos. R, também uma linguagem de programação, é sobretudo um ambiente de desenvolvimento integrado para cálculos estatísticos e visualização gráfica. X é uma referência às ferramentas Unix e suas extensões GNU/Linux.

Isoladamente ou de forma integrada, de acordo com a complexidade da tarefa, estas ferramentas podem ser utilizadas para obter, tratar, explorar, modelar e interpretar os dados.

Demonstração

Shell script: bash & awk

Algumas funcionalidades passam a ser demonstradas, através de um exercício que você poderá reproduzir. No prompt da sua distribuição linux favorita, digite os seguintes comandos:

Para obter os relatorios trimestrais de despesas de publicidade, no primeiro mandato de Bruno Siqueira

Para tratar os arquivos baixados, converta o formato pdf em txt

Reagrupe os registros individuais que foram segmentados em duas linhas

Depois remova o símbolo da moeda (Real) e reduza múltiplos espaços a apenas um

Em seguida remova os espaços existentes no início da linha e as linhas em branco

Exclua as linhas iniciadas por um caracter alfabético MAIÚSCULO seguido por outro minúsculo

Extraia a tabela e defina “:” como separador de campos

Substitua o caracter indicador de decimal - no lugar da vírgula utilize o ponto

Agora some as despesas por fornecedor

Exclua os valores zerados

Ordene a lista em ordem decrescente por valor

Finalmente salve o resultado no arquivo escolhido

Tudo junto fica assim

Executamos o shell script diretamente no R Markdown. Por uma questão de economia de espaço em disco, preservamos somente o arquivo no formato csv.

Recursos extras

Carregamos bibliotecas adicionais:

Definimos o diretório de trabalho, onde salvamos o arquivo:

Carregamos o arquivo no R e armazenamos os dados em um novo objeto. Renomeamos as colunas e ordenamos a variável convertida em fator.

Visualização gráfica

Os gastos em publicidade no primeiro mandato do prefeito Bruno Siqueira ultrapassaram R$ 20 milhões, dos quais 75% foram destinados a 7 fornecedores (de um grupo de 100).

Para a representação visual, utilizamos o pacote ggplot2, que contém as ferramentas necessárias para a criação de gráficos adequados a diferentes estruturas de dados.
Nesse caso,recomenda-se o gráfico de barras:



Pode ser utilizado o gráfico de barras empilhadas:


Para destacar o fornecedor que abocanhou a maior fatia do bolo, o gráfico de barras empilhadas pode ser facilmente transformado em um gráfico polar:

Referências:

Robbins, A. & Beebe, H.F. (2008). Classic Shell Scripting.
Janssens, J. (2015). Data Science at the Command Line.