Introdução
No ano de 1990 foi criado pelo Programa das Nações Unidas para o Desenvolvimento (PNUD) o Índice de Desenvolvimento Humano (IDH), com o objetivo de ser uma medida alternativa de desenvolvimento em contraposição ao uso do Produto Interno Bruto (PIB) dos países. O mesmo é uma combinação de três indicadores: índice de educação, expectativa de vida e educação e renda per capita. O cálculo se baseia nesses três indicadores, fazendo-se uma ponderação média para avaliar o resultado que deve estar entre 0 a 1. Quanto mais próximo de 1, melhor é o IDH de determinado país.
Além do IDH, existem outros índices como o Índice de Pobreza Multidimensional (IPM), Índice de Desenvolvimento de Gênero (IDG), Índice de Desigualdade de Gênero (em inglês: GII) e o Índice de Desenvolvimento Humano Ajustado pela Desigualdade (em inglês : IHDI). Em cada indicador uma série de variáveis são coletadas e ajustadas, como o percentual da população acima de 18 anos que trabalham, por sexo, e o IDH por sexo. Em algumas análises foram usadas variáveis dos índices, não só os indicadores finais.
Em conjunto com os dados do IDH serão analisadas doenças de caráter endêmico e epidêmico. Inicialmente, o foco será nos dados da HIV/AIDS que são de caráter endêmico quando analisada na região da África, por exemplo. Outras doenças como tuberculose, dengue e malária também serão analisadas. Os dados relacionados às doenças serão obtidos a partir de uma base de dados do Institute for Health Metrics and Evaluation (IHME).
Objetivos
O objetivo desse estudo é analisar diferentes tipos de visualizações de dados utilizando pacotes que não foram estudados em aula. Assim, será possível entender qual tipo se adequa melhor a determinado conjunto de dados.
Desenvolvimento
Leitura e organização dos dados
Os dados foram lidos utilizando o pacote data.table devido ao formato que os mesmos estão disponibilizados. O banco de dados foi construído a partir dos seguintes pacotes:
- utils: afim de converter os valores dos índices para números decimais;
- stringr: afim de retirar espaços em branco em excesso nos nomes dos países;
- base: afim de converter os nomes dos países para fatores e os anos para inteiros;
- tidyr: afim de organizar os dados por ano;
Visualização dos dados
A principal forma de visualização de dados utilizada no projeto foram diferentes tipos de mapa, uma vez que os bancos de dados analisados possuem dados de países. Os seguintes pacotes apresentaram melhores resultados quanto ao objetivo do projeto.
- highcharter: gráficos de mapas. O pacote highcharter mostra a variação de uma determinada característica nos países desejados a partir de cores diferentes. Uma das principais dificuldades com o pacote foi a divergencia entre os nomes dos países do banco de dados analisado com os dados sobre a doença e os nomes dos países presentes no pacote. O pacote foi escolhido por causa de sua fácil forma de visualização de uma variável numérica e da variância da mesma.
- plotly: gráfico de pontos. O pacote plotly transforma os gráficos feitos com o ggplot em gráficos interativos, no caso o gráfico utilizado foi o de pontos. O pacote foi escolhido pela sua eficiência em ilustrar as variáveis ao longo dos anos. Uma das dificuldades encontradas ao se trabalhar com o pacote foi o fato de que algumas das variáveis não apresentavam mudanças significantes com o passar dos anos.
- d3heatmap: gráficos de calor. O pacote produz gráficos de calor onde cada linha da tabela final é uma variável e os diferentes valores da mesma é mostrado a partir de um gradiente de cores, isto é, quanto maior um determinado valor, mais escura é a cor relacionada a ele. Escolheu-se trabalhar com o d3heatmap pela possibilidade de mostrar a variância das doenças por país, assim, comparações entre países foram possíveis com maior facilidade. A principal dificuldade encontrada ao se trabalhar com esse pacote foi o fato de que a matriz onde é criado os niveis (onde é mostrado as cores) precisa ser inteiramente numérica, então, os rótulos das variáveis não poderiam estar presentes em forma de coluna.
- shiny:interface para a visualização dos dados. Ele é composto por duas funções, ui.r para determinar a sequência em que o programa será exibido e a função server.r, que tem os códigos exibidos no ui.r. A principal dificuldade de trabalhar com o pacote foi o fato do mesmo possuir funções muito específicas. O pacote foi escolhido devido a necessidade de apresentar todas as diferentes formas de visualização dos dados estudadas em um único lugar.
O que foi desenvolvido com o shiny pode ser acessado no seguinte link.
- dygraphs: gráficos de linha. O pacote produz gráficos de linha de maneira dinâmica, onde é possível parar sobre um ponto da linha e obter mais informações sobre o mesmo. Foi escolhido trabalhar com o dygraphs por causa da necessidade de visualizar o crescimento/decrescimento do IDH e de outros índices por país e por ano, assim, o pacote auxiliou nessas questões específicas por país. Algumas das dificuldades encontradas em trabalhar com o pacote foram: como mudar o local da legenda dinâmica e como arrumar as escalas dos eixos.
Outros pacotes estudados
Durante o projeto foram estudados outros pacotes, contudo os mesmos não apresentaram resultados satisfatórios para o estudo. Tais pacotes são:
- metricsgraphics: produz gráficos de linha;
- leaflet: ilustra uma variável com círculos sobre um mapa;
- diagrammeR: produz esquematizações em cadeias, utilizando retângulos, círculos e setas.
Sobre os dados
Os bancos de dados das doenças foram retirados do site Institute for Health Metrics and Evaluation (IHME). O site disponibiliza estimativas do total e fornece também o intervalo de confiança das estimativas.