Escrevi este documento com o objetivo iniciar uma discussão acerca do uso da visualização de dados no âmbito da auditoria governamental. A razão para isso é que considero que a visualização de dados pode trazer grandes benefícios ao trabalho do auditor a um custo muito baixo e que, apesar disso, ainda é extremamente subutilizada.
Talvez possa servir de documento base para uma futura reunião do grupo de estudos AnalíticaTCERJ.
Acho que seja possível estruturar a discussão em três partes:
Na primeira parte podemos apresentar espécimes de gráficos que encontramos no dia a dia do trabalho de auditoria e, com base na literatura sobre visualização de dados, apresentar críticas e sugestões de melhoria dos mesmos, inclusive, quando possível (isto é, quando os dados estiverem acessíveis) efetivamente implementar as sugestões de melhoria. Também podemos apresentar exemplares de gráficos bem construídos, afinal podemos aprender tanto com as coisas ruins como com as coisas boas!
Na segunda parte acho que poderíamos apresentar e discutir o uso de gráficos menos usuais em auditoria mas que podem trazer grandes benefícios. Aqui nosso objetivo seria apresentar espécimes mais exóticas… ou não tão conhecidos e utilizados pela média dos auditores.
Nesta parte acho que teremos um grande desafio, pois penso que existe muito de questões culturais no uso de gráficos. E quando a gente mexe em questões culturais a coisa fica mais complicada… Mas vamos lá!
Veremos aqui que alguns gráficos são mais indicados para a exploração dos dados enquanto outros são recomendados para apresentação dos mesmos. Em geral iremos produzir diversos gráficos na fase de exploração dos dados e talvez fiquemos com alguns poucos. Em geral, nessa fase, não estamos muito preocupados com o polimento do mesmo. Essa é uma preocupação quando vamos elaborar gráficos para apresentação dos dados. Os gráficos que constarão do relatório ou apresentação.
Gráficos que por vezes são indicados para explorar os dados na fase de execução de uma auditoria, certamente não seriam utilizados no relatório de auditoria para apresentar dados.
Na terceira parte, tendo à nossa disposição mais opções de gráficos, acho que poderíamos apresentar alguns conjuntos de dados e verificar quais visualizações são mais efetivas para cada um deles. Afinal cada conjunto de dados tem características específicas que os tornam mais adequados de serem visualizados com um ou outro gráfico.
É importante deixar claro desde logo que a área de visualização de dados é um tanto subjetiva e que, portanto, não existem regras absolutas. As pessoas tem percepções diferentes da realidade e o que para umas é perfeitamente adequado não o será para outras. Mesmo as orientações da literatura devem ser tomadas como guias, mas nunca como verdades absolutas a serem seguidas em todas as situações.
Examinar gráficos não é uma habilidade inata do ser humano. Deve ser aprendida e desenvolvida como a maior parte das coisas na nossa vida.
Acho que seja interessante que as discussões tenham respaldo em alguma base bibliográfica de forma que as críticas e sugestões de melhoria aos gráficos que serão apresentados a seguir sejam feitas com base na literatura existente sobre o tema “visualização de dados”.
Naturalmente que em razão da enorme quantidade de literatura existente sobre essa matéria será necessário, de início, restringir as opções.
No que segue apresento links para alguns materiais que poderão servir de ponto de partida para aquisição de conhecimento na área de visualização de dados. Material adicional será oportunamente incluído em um anexo deste documento em versões posteriores. Aqui eu gostaria de contar com a colaboração do grupo para fazer indicações de material adicional sobre a matéria. Livros, artigos, vídeos… Fiquem à vontade!
Vamos aos links:
Jim Pelletier)Claus O. Wilke)Kieran Healy)Rob Kabacoff)TCU)" (…) O problema é que muitos auditores acreditam que simplesmente colocando um punhado de dados em um gráfico e colando este gráfico em um relatório de auditoria eles terão tido sucesso em comunicar algo importante." (Jim Pelletier)
Como dito acima, nesta parte do documento serão apresentados alguns exemplares de gráficos usualmente encontrados em relatórios de auditoria. O objetivo é que, com base na literatura sobre sobre visualização de dados, sejamos capazes de apontar os defeitos e qualidades dos gráficos e, quando for o caso, propor melhorias aos mesmos.
Os dois primeiros exemplares servem a um propósito, infelizmente, muito comum em relatórios de auditoria: “enfeitar” o relatório.
Ei-los:
Tomando por base a literatura indicada, quais comentários você teria a fazer em relação a estes gráficos?
“Uma regra que você deve estabelecer ao considerar uma estratégia de visualização de dados é não confiar em templates” (Jim Pelletier)
Os exemplares a seguir, ilustram, a meu ver, uma incapacidade de ir além da opção padrão oferecida pela ferramenta utilizada para a elaboração do gráfico.
Aparentemente, em razão da opção padrão colocar o eixo dos x no zero, os labels das colunas acabaram se misturando com as próprias colunas.
Como estes gráficos poderiam ser melhorados?
“Gráficos de pizza, especialmente os gráficos 3D, com frequência levam a uma visão distorcida dos dados, especialmente quando mais fatias são adicionadas.” (Jim Pelletier)
E como não poderia deixar de ser, um espécime extremamente comun nos nossos relatórios… os gráficos de pizza… também conhecidos como gráficos de setores.
Apresentamos dois exemplares no sabor tridimensional…
Quais as objeções de ordem técnica que os especialistas em visualização de dados fazem a esse tipo de gráfico? É só implicância de um bando de acadêmicos ranzinzas?
Uma outra variedade de gráfico muito parecida com o gráfico de pizza e que também é muito comun em relatórios financeiros são os gráficos de rosca ou “donuts”. Ei-lo:
Seriam eles melhores que os gráficos de pizza?
“Nota: evite os gráficos 3D visto que adicionam uma complexidade visual desnecessária” (Jim Pelletier)
Os gráficos de barras são, em geral, excelentes opções de visualização de dados em seus variados formatos: barras simples, justapostas e empilhadas. Nas variedades horizontal e vertical. Mas às vezes coisas desnecessárias são feitas… Vejamos o espécime a seguir:
O exemplar a seguir objetiva chamar a atenção para o seguinte fato: não use os gráficos para mentir…
Este exemplar chama a atenção para um ponto bastante discutido na literatura: iniciar o eixo y no zero é sempre necessário? Existem exceções a esta regra?
Os gráficos a seguir ilustram que às vezes somos levados a fazer opções que talvez não sejam muito interessantes…
O que vocês acham? Daria pra melhorar? Como?
“… mas se os dados são dignos de serem incluídos em um relatório de auditoria, então certamente serão dignos de receberem uns minutinhos a mais para se elaborar alguma coisa mais atrativa.”
Os exemplares a seguir foram selecionados porque, a meu ver, ilustram bem que com um pouco de cuidado, atenção e indo além das opções default da ferramenta utilizada para elaborar o gráfico é possível fazer coisas interessantes. Vejamos alguns exemplares:
Então, o que acharam? Alguma crítica ou sugestão de melhoria?
Para concluir, elenco as 5 dicas do artigo de Jim Pelletier para uma visualização de dados efetiva:
O autor elaborou o artigo com a perspectiva de que os gráficos são importantes para uma efetiva comunicação dos resultados das auditorias, o que é de fato correto. Mas penso que os gráficos podem também ser extremamente úteis durante a realização da auditoria como forma de obter insights sobre os dados analizados. Espero discutir essas questões nas partes II e III deste documento.
Além do artigo sugerido, do qual extraí citações para chamar a atenção para alguns pontos importantes, a leitura dos livros indicados trarão muito mais conceitos sobre o tema “Visualização de Dados”. Espero que possamos discutí-los em algum encontro do grupo.
À medida que o tempo permitir vou incluir novos exemplares de gráficos e mais indicação de referências bibliográficas, as quais entrarão em um anexo deste documento.
Espero que uma segunda versão deste documento já contenha o resultado de alguma discussão dos participantes do grupo.
No início deste documento são apresentadas algumas poucas referências para embasar nossa discussão sobre visualização de dados. Certamente existem muitas outras fontes muito boas disponíveis, mas para manter as coisas simples vamos ficar, por ora, com essas até porque estão disponíveis gratuitamente.
No livro Data Visualization: A Practical Introduction o autor, Kieran Healy, faz a seguinte pergunta: O que faz os gráficos ruins serem ruins? Bem, essa é uma ótima pergunta.
Um pouco antes ele faz uma outra pergunta também muito interessante: Porque olhar para os dados? Porque deveríamos nos preocupar em olhar primeiramente para representações pictóricas dos dados em vez de nos basear em tabelas ou resumos numéricos? Embora essa seja também uma ótima questão, vamos deixá-la para depois.
O autor inicia a seção 1.2 dizendo que é comum iniciar discussões sobre visualização de dados com um “desfile de horrores”, ou seja, apresentar de início um punhado de gráficos ruins como uma maneira de motivar a adoção de boas práticas posteriormente.
Foi exatamente isso o que fizemos aqui. Mas ele chama a atenção para o seguinte fato: que os gráficos ruins em geral combinam deficiências de diversas naturezas que seria melhor serem mantidas separadas.
O autor propõe que os problemas costumam vir em três variedades:
1. Problemas de natureza estética;
2. Problemas de natureza substantiva e
3. Problemas de natureza perceptual.
O autor ainda chama a atenção para o fato de que é importante compreender que esses elementos, conquanto sejam frequentemente encontrados em conjunto, são coisas distintas.
Acho que temos aqui um bom ponto de partida. Ainda que não tenhamos avançado o suficiente na teoria, será que seríamos capazes de identificar alguns desses pontos nos gráficos apresentados?
A leitura do capítulo 1 é fortemente recomendada…
O livro Fundamentals of Data Visualization do Claus O. Wilke tem uma seção, no capítulo 1, chamada Ugly, bad, and wrong figures onde o autor apresenta um gráfico e três versões do mesmo que ele chama de “ugly”, “bad” e “wrong”. Ele chama de “ugly” a versão do gráfico que apresenta problemas de ordem estética, de “bad” a versão com problemas de ordem perceptual e de “wrong” à versão com problemas relacionados à metemática, ou seja, que está objetivamente incorreto.
Os apontamentos feitos por Wilke em relação a cada gráfico podem nos inspirar em como indicar problemas com os gráficos apresentados neste documento e classificá-los em uma ou mais das três categorias de problemas descritas por Healy em seu livro.
Vamos lá! Mãos à obra!!!
Uma ideia prevalente quando se trata da elaboração de gráficos rafere-se à efetividade dos mesmos.
Naomi Robbins possui um livro cujo título é “Creating More Effective Graphs”, no qual ilustra com diversos exemplos e explicações as razões pelas quais uns gráficos são melhores que outros para apresentar dados.
Naomi inicia seu livro (pág. 3-9) explicando o que ela entende por um gráfico efetivo. Para ela um gráfico é mais efetivo que outro se a informação quantitativa nele contida pode ser decodificada de forma mais rápida ou mais facilmente pela maioria dos observadores e esclarece que essa definição de efetividade parte do pressuposto de que a razão pela qual produzimos gráficos é comunicar informação.
Para ilustrar sua definição de efetividade a autora compara um gráfico de pizza com um gráfico de pontos. Ambos são apresentados a seguir:
Em qual dos dois gráficos você acha que é mais fácil ordenar as categorias com base nos valores apresentados?
Claramente o gráfico de pontos é muito mais efetivo do que o gráfico de pizza. Atributos de ordem perceptual presentes em ambos os gráficos fazem com que o gráfico de pizza tenha um desempenho ruim enquanto o gráfico de pontos tenha um desempenho bem melhor.
Estes aspectos perceptuais são discutidos no item 1.4 do livro Data Visualization do Kieran Healy.
Poderíamos então dizer, com base nisso, que bons gráficos seriam aqueles que comunicam as informações contidas nos dados de forma efetiva, ou seja, nos quais as informações quantitativas são decodificadas pelo observador de forma rápida e acurada.
No artigo “Graphical Excellence - The Importance of Sound Principles and Practices for Effective Communication” Thomas E. Bradstreet nos diz que " Gráficos efetivos mostram os dados; dizem a verdade; encoraja a comparação de diferentes partes dos dados; compacta grandes quantidades de informação quantitativa em uma pequena região; mostram os dados em vários níveis de detalhes; causa impacto: comunica com clareza, precisão e eficiência; serve a um propósito definido: descoberta, compreensão e apresentação; e estão intimamente integrados com descrições estatísticas e verbais dos dados (Tufte 1983, 1990; Cleveland 1985; Tukey 1990, 1993) “.
Aqui o autor aglutinou em uma única definição um rol de atributos colhidos em obras de diversos autores para expressar as características de gráficos efetivos.
Da “definição” podemos notar que os gráficos efetivos:
É um conjunto de atributos bem extenso. Vamos ter oportunidade de identificar alguns desses atributos em gráficos que serão mostrados neste documento.
Acho que agora podemos retomar a primeira pergunta feita por Kieran Healy: Porque olhar para os dados?
A resposta simples a essa pergunta é: olhar apenas para medidas resumos dos dados como médias, medianas, percentis, correlações, regressões, desvio padrão, etc., frequentemente pode nos dar uma impressão errada dos dados subjacentes.
O autor ilustra esse ponto com o conhecido conjunto de dados denominado “Quarteto de Anscombe”, que apresentamos a seguir:
Cada um dos quatro conjuntos de dados possui as seguintes características:
Número de observações (\(n\)) = 11
Média dos \(x\) (\(\bar{x}\)) = 9.0
Média dos \(y\) (\(\bar{y}\)) = 7.5
Coeficiente da regressão \((b_1)\) = 0.5
Equação da linha de regressão: \(y = 3 + 0.5 x\)
\(R^2\) Múltiplo = 0.667
A julgar apenas por estas medidas resumo seríamos levados a acreditar que os quatro conjuntos de dados são iguais ou muito parecidos entre si. Mas quando fazemos um gráfico dos mesmos o que vemos é uma história completamente diferente da que as medidas resumo nos contam:
Os gráficos mostram características dos quatro conjuntos de dados não reveladas pelas medidas resumo, tais como:
(a) a relação determinística não linear entre as variáveis X2-Y2;
(b) os outliers presentes nos conjuntos de dados X3-Y3 e X4-Y4;
(c) a relação determinística linear entre as variáveis X3-Y3 e X4-Y4
(d) o fato de o ajuste de um modelo de regressão linear só fazeer sentido no conjunto de dados X1-Y1.
Ainda sobre a importância de se olhar para representações gráficas dos dados Rafe Donahue, em seu Fundamental Statistical Concepts in Presenting Data (pág. 84-85) nos apresenta um caso que ilustra com bastante clareza esse ponto. Vou tentar resumir suas observações a seguir.
Primeiro vamos contextualizar os dados. Compreender os dados é fundamental para a produção de boas visualizações.
Os dados referem-se à quantidade de nutrição que pacientes de unidades de terapia intensiva recebe em relação à quantidade que os médicos julgam adequada para o paciente. Essa quantidade de nutrição é comumente expressa como uma “percentagem da meta”. De forma ideal, os médicos gostariam que todos os pacientes recebessem uma quantidade mínima de nutrição mas fatores como inchaço, infecções e outras coisas mais podem dificultar esse esforço.
O autor informa que foi apresentado a um conjunto de dados que fornecia para cada um dos primeiros 14 dias desde a entrada do paciente na UTI a “percentagem da meta” para cada paciente. O primeiro gráfico elaborado com os dados é apresentado a seguir:
Este primeiro gráfico mostra as medianas das “percentagens da meta” de determinados pacientes nos 14 primeiros dias. O gráfico mostra que ao longo dos 4 ou 5 primeiros dias há uma grande variabiliade nas medianas das “percentagens da meta” seguida de um crescimento geral ao longo da última semana. No dia 14 a mediana das “percentagens da meta” atingiu o valor de 90%, o que talvez possa indicar que está tudo bem, afinal está próximo de 100% sinal de que estamos fazendo as coisas direito, correto?
O segundo gráfico apresenta além da mediana o 10o e 90o percentis. Agora é possível ver evidência da distribuição dos valores das “percentagens da meta” em cada dia. Ninguém agora admitiria não ter percebido que havia variabilidade nos dados.
Mas vamos lembrar que a mediana é o ponto onde 50% dos dados estão acima e abaixo dele. Assim, até mesmo no 14o dia, tendo uma mediana de “percentagens da meta” de 90% implica que 50% dos pacientes que possuem dados no gráfico nesse dia possuem um valor de “percentagens da meta” menor que 90%. Mas o quanto menor que 90%? Bem, o percentil de ordem 10 nesse dia é de aproximadamente 20%. Vejam que ainda que a mediana seja de 90%, 1 em 10 pacientes ( 10% ) está obtendo menos do que 20% da nutrição que eles deveriam receber no 14o dia.
Vamos ainda olhar os dias 1 e 2: valores altos num dia e baixos no outro, o que parece ser um comportamento estranho a demandar uma análise mais detalhada.
No terceiro gráfico todo o conjunto de dados foi adicinado às medidas resumo eté então apresentadas. O que o gráfico nos permite ver agora?
O dia 1 possui apenas dois dados. Talvez a mediana e os percentis de ordem 10 e 90 (seja lá como tenhan sido estimados com uma amostra de tamanho 2) não são boas medidas resumo. De fato, no dia 1 temos três medidas resumos para mostrar apenas 2 dados o que não faz o menor sentido.
O dia 2 possui boa parte dos dados entre 10% e 40% da meta.
O mínimo no dia 14 é um simples 10% enquanto mais de 50% dos pontos estão acima dos 90% da meta.
No dia 10, dois pacientes na verdade possuem valores acima de 100% e também existe um dado acima de 100% no dia 11.
Existe uma proporção crescente de pacientes que atingem 100% da meta á medida que o estudo avança.
Todas essas descobertas ficam disponíveis uma vez que vemos os dados individualmente.
Esse caso ilustra algumas características dos gráficos efetivos, conforme definição apresentada por Thomas E. Bradstreet:
O gráfico mostra os dados. Todo o conjunto de dados pode ser visualizado no gráfico. Também podemos dizer que diz a verdade já que não não possui nenhum defeito perceptual ou substantivo que possam levar o observador a uma conclusão equivocada. Também permite fazer comparações já que é possivel ver a distribuição da variável (“percentagens da meta”) nos 14 dias observados. Usa pouco espaço para mostrar muitos dados e comunica os dados com clareza, precisão e eficiência e serve ao propósito de compreensão dos dados.
Vamos a mais um exemplo com o objetivo ilustrar o porque é útil olhar para representações gráficas dos dasos. O exemplo a seguir provém do livro Graphical Data Analysis with R do Antony Unwin (pág. 1-2).
Os dados são provenientes da World Speed Skiing Competition realizado em abril de 2011 na cidade de Verbier na Suiça. O conjunto de dados possui informações sobre 79 participantes masculinos e 12 participantes femininos. A figura abaixo mostra histogramas das velocidades alcançadas pelos 12 competidores femininos e 79 competidores masculinos.
Além de reforçar o que já se sabe sobre os quantitativos de competidores masculino e feminino, o gráfico evidencia que o competidor mais veloz foi um homem e que uma mulher foi a menos veloz. O que é surpreendente (e mais interessante) é que as mulheres mais velozes foram quase tão velozes quanto os homens mais velozes e que havia dois grupos distintos de mulheres: as rápidas e as lentas. Também parece existir dois grupos de homens embora a distância entre esses grupos não seja tão grande. Essas informações são facilmente extraídas do gráfico e provavelmente não seriam tão facilmente apreendidas a partir de resumos estatísticos dos dados.
Um pouco mais de investigação acerca dos dados revela a razão dos grupos identificados: existem na realidade três eventos diferentes: Speed One, Speed Downhill e Speed Downhill Junior. O gráfico a seguir mostra os histogramas das velocidades por evento e sexo:
Podemos ver que Speed One é o evento mais rápido (os competidores possuem equipamento especial); que nenhuma mulher participou do Speed Downhill e que houve pouca variação em velocidade entre os competidores juniores. A razão dos dois grupos de competidores femininos antes identificada agora fica mais clara: elas participaram de eventos diferentes. A distribuição das velocidades dos competidores masculinos é afetada pela inclusão das valocidades do evento Downhill e pelo maior número de homens na competição. É interessante que existe pouca variação em velocidade entre as 7 competidoras mulheres que participaram do Spped One comparado com os 39 homens que participaram. As mulheres foram mais velores do que boa parte dos homens.
Agora algumas palavras do autor:
“Gráficos são meios efetivos de sumarizar e transmitir informação. Você precisa pensar com muito cuidado em como interpretar um gráfico. Contexto é importante e você com frequência precisa obter informação complementar. Desenhar vários gráficos é muito melhor do que desenhar apenas um.”
Do rol de atributos de gráficos efetivos já listado acima, podemos dizer que o gráfico acima permite fazer comparações, mostra os dados em vários níveis de detalhes e serve a um propósito de exploração dos dados (obtenção de insight e compreensão dos mesmos).
Espero com estes exemplos ter ajudado a tornar mais claro a razão pela qual podemos (e devemos) utilizar a análise gráfica com mais frequência em nossos trabalhos de auditoria, não apenas para apresentar dados nos relatórios de auditoria, mas também como ferramenta de análise de dados no processo de análise de dados durante a execução da auditoria.
Ver os gráficos em ação é a melhor forma de aprender Análise Gráfica de Dados. Ganhar experiência na interpretação de gráficos e elaborar seus próprios gráficos é o caminho mais efetivo a seguir.
— Antony Unwin
Nesta parte do documento nosso objetivo é mostrar ao leitor um rol mais amplo de possibilidades gráficas que estão à sua disposição. Para isso, vamos nos propor aqui a:
(a) mostrar como elaborar os gráficos usando o pacote ggplot2 do R;
(b) explicitar qual tipo de gráfico é mais adequado para determinado tipo de dados e/ou objetivo pretendido;
(c) apresentar novas opções de gráficos.
Utilizaremos o pacote ggplot2 do R para elaborar os gráficos sempre que possível. Por vezes utilizaremos também pacotes que são extensões do ggplot2 e que podem ser consultados no site http://www.ggplot2-exts.org/gallery/.
Não é nosso objetivo ensinar a utilizar o pacote ggplot2. Para uma rápida introdução a este pacote recomendamos a leitura dos capítulos 3 e 28 da versão do livro R for Data Science disponível online em https://r4ds.had.co.nz/.
A página do pacote (https://ggplot2.tidyverse.org/) também é uma excelente fonte de informações.
Não iremos apresentar o código utilizado para a produção dos gráficos apenas para não tornar o documento muito extenso. O leitor poderá consultar o código na versão deste documento em RMarkdown a ser disponibilizado no repositório do grupo, onde também estarão disponíveis os dados utilizados neste documento.
De certa maneira, alguns gráficos são mais indicados para determinado objetivo. Assim, por exemplo, se nosso objetivo é mostrar a evolução de uma determinada variável no tempo, um gráfico de linhas pode ser uma boa opção. Por outro lado, se o objetivo é ver como duas variáveis quantitativas se relacionam, um gráfico de dispersão é a melhor opção. Assim, elencamos a seguir alguns objetivos que normalmente se busca alcançar ao se produzir um gráfico:
1 Ver como os dados se distribuem;
2 Comparar as distribuições dos dados (no tempo ou em populações diferentes);
3 Ver as partes no todo (num dado momento ou ao longo do tempo);
4 Comparar valores;
5 Ver como os valores de uma variável evoluem no tempo;
6 Ver como duas variáveis se relacionam;
7 Ver as conexões existentes entre diversos indivíduos;
Para uma melhor compreensão dos comentários que serão feitos quanto ao uso de cada tipo de gráfico, pensamos ser necessário uma breve discussão sobre os tipos de dados e sua classificação.
Uma primeira classificação dos dados é que eles podem ser quantitativos ou qualitativos.
Dados quantitativos são aqueles que expressam quantidades medidas em uma escala numérica, podendo ser classificados em contínuos ou discretos. Dados discretos são aqueles que representam contagens, sendo expressos por números inteiros. Exemplo desse tipo de dado é o número de filhos que um casal tem. Já os dados contínuos são aqueles que assumem valores num intervalo numérico. Exemplo desse tipo de dado é o salário mensal de um indivíduo.
Dados qualitativos são aqueles que representam atributos dos indivíduos. Exemplos desse tipo de dado são o sexo de uma pessoa (masculino ou feminino) e o dia da semana (dom, 2a, 3a, 4a, 5a, 6a e sab). Os dados qualitativos são, ainda, classificados em nominais ou ordinais. Os dados qualitativos ordinais possuem uma ordenação implícita, como é o caso do dia da semana, onde os valores da variável possuem uma ordenação temporal. Já a variável sexo não possui tal ordenação.
Além dessa classificação dos dados quanto ao tipo, também podemos classificá-los quanto a estrutura. Nesse classificação os dados podem ser um corte transversal, uma série temporal ou um painel.
Dados de corte transversal são aqueles que se referem a mensurações feitas em distintas unidades de observação em determinado ponto no tempo. Já uma série temporal consiste em dados que representam mensurações feitas ao longo do tempo, em geral em períodos igualmente espaçados de tempo. Os dados de painel, também conhecidos como dados longitudinais, são dados que combinam características dos dois tipos anteriores.
A depender do tipo de dados e da estrutura dos mesmos, alguns gráficos funcionarão melhor que outros.
Olhando os exemplares de gráficos apresentados na Parte I, constata-se, com certa tristeza, que os auditores, não importa a informação que desejem transmitir, recorrem com muita frequência a três tipos de gráficos: gráficos de linha, gráficos de barra e gráficos de pizza.
A seguir vamos apresentar cada um desses 3 gráficos, elaborados com o ggplot2, bem como tecer alguns comentários sobre a utilização dos mesmos.
O gráfico de linhas é o gráfico indicado para apresentar dados em séries de tempo. Neste tipo de gráfico pode-se buscar por tendência na série de dados e eventual comportamento sazonal.
Para ilustrar a elaboração e uso deste gráfico vamos utilizar o conjunto de dados relativo a crimes ocorridos no Estado do Rio de Janeiro. Especificamente nosso objetivo será examinar como o delito estupro evoluiu ao longo do tempo. Os dados são quantitativos discretos e formam uma série temporal.
Antes de elaborar o gráfico, será necessário uma pequena preparação dos dados, que consistirá em criar uma nova variável que indique o mês e ano da ocorrência do delito, e a remoção de variáveis faltantes (missing values).
Feito esse pequeno ajuste nos dados, vamos ao gráfico:
O que a análise do gráfico nos permite dizer?
Este é um outro clássico. Quando pensamos em elaborar um gráfico de barras para mostrar alguma informação, em geral, estamos querendo comparar valores. O gráfico de barras possui três variantes: o gráfico de barras simples, o gráfico de barras justapostas e o gráfico de barras empilhadas. Estes podem ser apresentados horizontal ou verticalmente.
Se nosso objetivo fosse comparar a quantidade de escolas municipais, estaduais e federais no Estado do Rio de Janeiro, poderíamos usar um gráfico de barras da seguintes forma:
Primeiro, o preparo dos dados que consistirá em filtrar a base de dados ideb as escolas do RJ.
Temos aqui uma variável qualitativa nominal. Com esse tipo de variável a operação podemos apenas realizar a contagem de quantos indivíduos pertencem a cada categoria. Esse é o dado mostrado no gráfico. Não sendo a variável ordinal, é boa prática apresentar as categorias ordenadas no gráfico, o que facilita a visualização.
Às vezes queremos ver as partes no todo. Para essa finalidade tanto o gráfico de barras empilhadas como o gráfico de pizza podem ser opções possíveis. Vamos ver como seria um gráfico de pizza para os mesmos dados utilizados no gráfico de barras acima.
No pacote ggplot2 um gráfico de pizza é apenas um gráfico de barras empilhadas num sistema de coordenadas polar.
Os histogramas são gráficos bem úteis quando queremos visualizar a distribuição de de uma variável. Os histogramas são construídos com dados quantitativos.
O gráfico a seguir mostra a distribuição dos estupros registrados no ERJ, mes a mes, no período de xx a xx.
O que este gráfico nos mostra? O gráfico sugere uma distribuição bimodal.
Uma das atividades mais frequentes em análise de dados é a verificação da existência de relacionamento entre variáveis quantitativas. O diagrama de dispersão é o gráfico indicado para esta finalidade.
Suponha que se deseje verificar a relação existente entre a área útil de uma amostra de imóveis e os valores em R$ do \(m^2\). Os dados constam da página 35 do livro Curso Básico de Engenharia Legal e de Avaliações do Prof. Sérgio Antonio Abunahman, e constituem o conjunto de dados armazenados no arquivo abunahman.RData.
Apresenta-se a seguir um diagrama de dispersão das duas variáveis.
O gráfico evidencia não existir uma relação linear forte entre as duas variáveis.
Ao se examinar um diagrama de dispersão procura-se por algum dos padrões mostrados na figura a seguir:
O boxplot é um gráfico que possibilita representar a distribuição de um conjunto de dados com base em alguns de seus parâmetros descritivos, quais sejam: a mediana (\(Q_2\)), o quartil inferior (\(Q_1\)), o quartil superior (\(Q_3\)) e do intervalo interquartil (\(IQR = Q_3 − Q_1\)). A figura a seguir apresenta o boxplot destacando suas principais características:
A linha central da caixa marca a mediana do conjunto de dados. A parte inferior da caixa é delimitada pelo quartil inferior (\(Q_1\)) e a parte superior pelo quartil superior (\(Q_3\)). As hastes inferior e superior se estendem, respectivamente, do quartil inferior até o menor valor não inferior a \(Q_1 − 1.5\times(Q_3 − Q_1)\) e do quartil superior até o maior valor não superior a \(Q_3 + 1.5\times(Q_3 − Q_1)\). Os valores inferiores a \(Q_1 − 1.5\times(Q_3 − Q_1)\) e superiores a \(Q_3 + 1.5\times(Q_3 − Q_1)\) são representados individualmente no gráfico sendo estes valores caracterizados como outliers.
As quantidades \(Q_1 − 1.5\times(Q_3 − Q_1)\) e \(Q_3 + 1.5\times(Q_3 − Q_1)\) delimitam, respectivamente, as cercas inferior e superior e constituem limites para além dos quais, como visto, os dados passam a ser considerados outliers.
O boxplot permite avaliar a simetria dos dados, sua dispersão e a existência ou não de outliers nos mesmos, sendo especialmente adequado para a comparação de dois ou mais conjuntos de dados correspondentes às categorias de uma variável qualitativa.
Para ilustrar a construção deste gráfico e sua utilização vamos utilizar o conjunto de dados ideb que contém informações sobre o desempenho escolar de escolas públicas em todo o Brasil.
Mais especificamente vamos tentar verificar o que ocorreu com a distribuição do ideb ao longo do período de 2005 a 20xx nas escolas do Estado do Rio de Janeiro.
Antes de elaborar o gráfico será necessário colocar os dados no formato adequado para que possa ser utilizado no pacote ggplot2.
E se quiséssemos ver essa comparação das distribuições do ideb por dependência adiminstrativa?
Este último gráfico introduz o conceito de gráficos condicionados. O condicionamento consiste em produzir gráficos considerando os valores de uma ou mais variáveis nominais. No exemplo acima, os boxplots foram condicinados à variável rede.
O que a análise dos gráficos nos permite dizer?
Sob a denominação de gráfico de pontos tem-se dois estilos um pouco distintos entre si.
Uma variante, conhecida como gráfico de dispersão unidimensional, consiste em ir xxx
A variante denominada Cleveland dot plot assemelha-se a um gráfico de barras e, de fato, pode ser uma alternativa ao gráfico de barras em muitas situações e em especial quando a quantidade de itens a serem plotados é grande.
Vamos retomar o conjunto de dados relativos aos registros de estupro ocorridos no Estado do RJ.
A versão denominada Cleveland Dot Plot é a seguinte:
Mais informações sobre este gráfico podem ser obtidas no seguinte site: https://www.joyce-robbins.com/blog/2016/06/02/datavis-with-rdrawing-a-cleveland-dot-plot-with-ggplot2/
Este gráfico é de grande utilidade para realizar a comparação entre as distribuições de duas variáveis ou para comparar a distribuição de uma variável com a distribuição normal.
Será que a distribuição do ideb aproxima-se de uma distribuição normal?
Gráficos de densidade são uma ótima opção para comparar as distribuições de uma variável quantitativa. Estes gráficos podem ser considerados versões “suavizadas” dos histogramas.
No exemplo a seguir, vamos usar novamente o conjunto de dados idebRJ_tdy com o objetivo de ver/comparar as distribuições do ideb nos anos de 2011 e 2015.
Examinando o gráfico acima, o que podemos falar a respeito do IDEB nos dois anos considerados?
Uma outra opção semelhante, obtida com o pacote ggridges, é colocar os gráficos de densidade um acima do outro.
Para mais informações, consultar https://cran.r-project.org/web/packages/ggridges/vignettes/introduction.html
A elaborar…
Este é um gráfico que possibilita a visualização de dados qualitativos. Especificamente xxx
Neste gráfico a área do gráfico é dividida em retângulos proporcionais em tamanho às contagens das combinações que representam. A função mosaicplot() implementa este gráfico.
No exemplo que se segue usaremos o pacote ggmosaic que disponibiliza a função geom_mosaic() que pode ser utilizada com o pacote ggplot2. Outros pacotes também disponibilizam funções para a implementação deste gráfico.
É um gráfico que permite a comparação de valores das frequencias conjuntas dos níveis de duas ou mais variáveis qualitativas.
O gráfico a seguir utiliza o conjunto de dados rh.RData que contém informações sobre os funcionários de uma empresa.
O gráfico representa uma tabela de contingência elaborada a partir da tabução das variáveis Formação e Departamento e foi elaborado com o objetivo de varificarmos a frequencia de ocorrência de funcionários com alguma formação acadêmica específica nos departamentos da empresa.
Mais informações sobre a construção deste gráfico podem ser obtidas em https://cran.r-project.org/web/packages/ggmosaic/vignettes/ggmosaic.html
O gráfico de coordenadas paralelas destina-se a representar os perfis de cada indivíduo segundo as variáveis que o descrevem. Neste gráfico cada indivíduo é representado por uma linha que se extende ao longo de eixos representando as variáveis do conjunto de dados. Trata-se de um gráfico nitidamente exploratório.
Vamos ilustrar o uso deste gráfico utilizando inicialmente o conjunto de dados abunahman.RData, com o objetivo de verificar se algum imóvel em particular apresenta carasctísticas distintivas dos demais. A função parcoord() do pacote MASS implementa este gráfico.
A utilidade deste gráfico está em mostrar grupos de indivíduos que possuam perfis semelhantes entre si e grupos que sejam diferentes dos demais.
Um outro exemplo, agora utilizando o conjunto de dados mtcars e a função ggparcoord() do pacote GGally.
Para mais informações sobre este gráfico consultar https://github.com/matloff/parcoordtutorial.
A elaborar…
A elaborar…
A elaborar…
A elaborar…
A elaborar…
Ao se explorar um conjunto de dados geralmente é uma boa ideia elaborar diversos gráficos sem nos preocuparmos muito com questões estéticas. Nessa fase, não estamos muito preocupados com as legendas, os rótulos dos eixos, títulos dos gráficos ou mesmo as cores que serão usadas. Nosso objetivo é rapidamente compreender as informações contidas nos dados.
Quando vamos apresentar nossos resultados a outras pessoas a coisa muda de figura. Agora, vamos nos preocupar em escolher as versões mais efetivas dos gráficos produzidos, possivelmente agrupando-os de forma estruturada e talvez até juntando texto que conte uma estória.
No livro Graphical Data Analysis with R Antony Unwin argumenta que ao produzir gráficos para apresentação é melhor apresentar mais de um gráfico. De fato, o autor menciona que “… uma ideia central que perpassa todo o livro é que devemos elaborar diversos gráficos. O objetivo não tem que ser elaborar apenas um gráfico que resuma tudo o que possa ser dito sobre os dados.” (pág. xi)
Um “conjunto de gráficos” (ensemble of graphics) é um grupo de gráficos que apresentam diferentes aspectos de um conjunto de dados. Estes gráficos devem ser vistos como um todo onde cada um contribui com algo para a visualização.
O exemplo a seguir ilustra o conceito. O conjunto de dados coffee contém 43 observações relativas a cafés de duas variedades: Arabica e Robusta.
A seguir uma amostra do conjunto de dados coffee:
| Variety | Country | Water | Bean Weight | Extract Yield | ph Value | Free Acid | Mineral Content | Fat | Caffine | Trigonelline | Chlorogenic Acid | Neochlorogenic Acid | Isochlorogenic Acid |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | mexico | 8.939999 | 156.6 | 33.5 | 5.80 | 32.7 | 3.80 | 15.2 | 1.13 | 1.03 | 5.38 | 0.40 | 0.79 |
| 1 | mexico | 7.400000 | 157.3 | 32.1 | 5.81 | 30.8 | 3.71 | 15.0 | 1.25 | 1.01 | 5.13 | 0.32 | 0.97 |
| 1 | guatemal | 9.740000 | 152.9 | 33.1 | 5.26 | 36.7 | 4.15 | 16.1 | 1.21 | 1.05 | 5.94 | 0.24 | 0.76 |
| 1 | honduras | 10.400000 | 174.0 | 31.5 | 5.61 | 34.2 | 3.94 | 15.8 | 1.06 | 0.94 | 5.87 | 0.39 | 0.59 |
| 1 | salvador | 10.540000 | 145.1 | 35.2 | 5.77 | 31.8 | 4.09 | 15.2 | 1.11 | 0.99 | 5.09 | 0.49 | 0.72 |
| 1 | salvador | 10.000000 | 156.4 | 34.5 | 5.83 | 32.6 | 3.88 | 15.4 | 1.20 | 0.81 | 5.30 | 0.43 | 0.69 |
O conjunto de gráficos é mostrado a seguir:
A elaborar…