Análises de dados.

Ferramentas e perspectivas pela linguagem de programação.

2023-06-25

Agenda!

  • Conceitos importantes

  • Ambiente de dados

  • Jornada do analista de dados

  • Alfabetização em análise de dados

  • Principais ferramentas de análise de dados

  • Introdução à linguagem R.

Trajetória

  • Bianca Bittencourt - bittenka@gmail.com
    • Bacharel em Nutrição pela Universidade Federal de Pelotas,UFPEL.
    • Doutora em Saúde Coletiva pela Universidade Federal de Santa Catarina,UFSC.
    • Vigilância
    • Consultora da OPAS, DIVE (2019)
    • CIEVS-SC (2020)

Tipos de dados


Dados Estruturados

  • Dados estão organizados em tabelas,distribuídos em linhas e colunas com valores pré-determinados.

  • Prontos pro analista consumir.

    • Arquivos do Excel, CSV, SQL.

Tipos de dados


Dados Estruturados

Tipos de dados


Dados Semiestruturados

  • Possuem alguma estrutura ou organização parcial.

  • Exemplos incluem documentos XML, arquivos JSON e dados HTML.

Tipos de dados


Dados Semiestruturados

Tipos de dados


Dados Semiestruturados Quando a gente copia e cola uma info de uma página web.

Tipos de dados

Dados Não Estruturados

  • Informações que não possuem uma organização ou formato definido.

    • Documentos de texto (arquivos do Word, PDFs).
    • Arquivos de mídia (imagem, áudio e vídeo).
    • Dados de redes sociais.

Exemplos relacionados a estrutura dos dados.

  • Dados não estruturados em PDF necessitam de tratamentos complexos para transformar em um dado estruturado.
  • Tente copiar e colar um pdf no excel, o que acontece?
  • Dados de prontuários de UBS e hospitalares.

Exemplos relacionados a estrutura dos dados.

Exemplos relacionados a estrutura dos dados.

Exemplos relacionados a estrutura dos dados.

  • ilovepdf e similares.

  • Cuidado com os dados sensíveis retidos pela plataforma.

Exemplos relacionados a estrutura dos dados.


  • Google Flu Trends.
  • Identificar em que regiões há riscos consideráveis de surtos de gripe.
  • Registro de menções em redes sociais de palavras associadas ao problema, como “tosse”, “dores no corpo”.

Exemplos relacionados a estrutura dos dados.

Exemplos relacionados a estrutura dos dados.

Exemplos relacionados a estrutura dos dados.

Exemplos relacionados a estrutura dos dados.

Análise de sentimentos como possibilidade de análise.

Exemplos relacionados a estrutura dos dados.

Análise de sentimentos sobre o lockdown no Brasil.

Exemplos relacionados a estrutura dos dados.

Exemplos relacionados a estrutura dos dados.

Exemplos relacionados a estrutura dos dados.

Exemplos relacionados a estrutura dos dados.

WebScrapping


Técnica de linguagem de programação utilizada para coletar informações de páginas da web de forma estruturada e automatizada.

Volume de dados

volume de dados alcança a casa dos 40.000 Exabytes (ou 40 trilhões de Gigabytes).

O que envolve a análise de dados?

  • Divisão didática e prática (antes, durante e depois.)

Pré-analise.

  • Onde estamos:
    • Dados em sistemas (sim, sinan, sivep, esus, gal)
  • Melhor cenário:
    • Dados armazenados em um mesmo ambiente.

Pré-analise

  • Ambiente de dados (mundo ideal).
  • Objetivo:
    • Facilitar o acesso aos dados.
    • A distância entre você e a sua análise seja apenas a pergunta.
    • Ex. Dados vacinais e mortalidade.
  • Tecnologia da informação: engenheiros de software, engenheiro de dados, cientista da computação.

Ambiente de dados


Abrange todo o ecossistema necessário para gerenciar e utilizar os dados dentro de uma organização. Envolve um conjunto de recursos, tecnologias e práticas.

Ambiente de dados


- Várias etapas envolvidas.
1. Extrair os dados - dados fontes secundárias: dados de laboratórios privados, dados do google, IBGE.

  • SQL, API, Web Scrapping, CSV, PDF
  1. Interpolar as fontes de dados - linkages entre as fontes de informação.

Ambiente de dados


  1. Armazenar
  • Os dados são armazenados em um ambiente de armazenamento de dados.
  • data warehouses ou data lakes.

Ambiente de dados


4. Disponibilizar

  • acessibilidade ao usuário.

  • aplicação web, software, api

Experiência Boa Vista


  • Construção de um ambiente de dados da COVID-19 em Santa Catarina.

  • Integração dos diversas fonte de informação.

    • e-SUS, SIVEP-Gripe, LACEN, SIM, ses-leitos, laboratórios privados.

Experiência Boa Vista

Experiência Boa Vista

Experiência Boa Vista

A pandemia de COVID-19


  • gerou uma quantidade massiva de dados.

  • passamos a lidar com dados de volume, velocidade e variedade (os 3 Vs do big data).

  • Necessidade de ferramentas e softwares de análise de dados avançadas para explorar e interpretar os dados em grande escala.

Jornada do analista de dados

Jornada do analista de dados

Na prática:

  1. Extração dos dados
  • Extrair dados de diversas fontes e integrar.
  1. Exploração de dados
  • identificar padrões preliminares.

  • (re) pensar os objetivos da análise.

    • ex. o dado tem uma distribuição ruim.

Jornada do analista de dados

  • identificar as transformações necessárias.

Jornada da análise de dados

  1. Etapa de tranformação
  • Envolve encontrar e eliminar quaisquer erros e imprecisões que possam afetar os resultados.

  • Limpeza

  • Transformam os dados (criar faixa etária, taxas, tabelas de contigência, unir bases de dados, etc.)

Jornada da análise de dados

  1. Etapa de tranformação

{fig-align=“center”}

Jornada da análise de dados

  1. Modelagem
  • aplicar técnicas estatísticas
  • modelos descritivos, modelos de previsão e inferências
  • Isso pode envolver técnicas como regressão, análise de séries temporais.
  • possuem pre-requisitos

Jornada da análise de dados

  1. Resultados e comunicação (dataviz)
  • O objetivo da visualização de dados é tornar os dados digeríveis.
  • Gráficos, tabelas e mapas.
  • Relatório, informe, boletim, artigo, apresentação, dashboard.
  • É uma especialidade (pscicologia das cores, storytelling).
  • Empresas mais maduras tem uma área especifica de dataviz.

10 armadilhas comuns de visualização de dados

  • 1. Contraste de cor enganoso - Difícil saber qual valor é mais significativo.

10 armadilhas comuns de visualização de dados

2. Escolher o método de visualização errado - confuso, pois as partes do gráfico parecem semelhantes entre si e o valores não somam 100%.

10 armadilhas comuns de visualização de dados

3. Gráficos esmagadores com muitos dados

  • Ter muitos dados para mostrar tudo de uma vez pode sobrecarregar o leitor.

  • O usuário não consegue entender todos os detalhes da visualização, não sabe onde focar a atenção.

10 armadilhas comuns de visualização de dados

4. Omitir linha de base e escala truncada

10 armadilhas comuns de visualização de dados

5. Correlações sem causa

10 armadilhas comuns de visualização de dados

6. Zoom em dados- Esse tipo de visualização oculta dados importantes, dando aos usuários apenas uma parte.

10 armadilhas comuns de visualização de dados

7. Seleção de cores: Algumas cores se destacam mais que outras, dando peso desnecessário a esses dados. Use uma única cor com tonalidade variável.

10 armadilhas comuns de visualização de dados

8. Distribuição dos dados e multiplas categorias.

10 armadilhas comuns de visualização de dados

9. Desordenação das categorias.

10 armadilhas comuns de visualização de dados

10. Variáveis categóricas em gráfico de rosca.

10 armadilhas comuns de visualização de dados

  • Menos é Mais: considere a cor cinza como a cor mais importante no Data Viz.
  • Acalmar a impressão visual geral de seus gráficos

10 armadilhas comuns de visualização de dados

  • Use cores intuitivas: ao escolher uma paleta de cores, considere seu significado na cultura de seu público-alvo.
  • Cores aprendidas: vermelho (atenção/parar/ruim) eo verde(bom/seguir).
  • Dados de gênero evitar a combinação estereotipada de rosa e azul.

10 armadilhas comuns de visualização de dados

Considere as pessoas daltônicas.

10 armadilhas comuns de visualização de dados

  • Para visualizações de dados, os tipos de letra sans-serif (“sem serifas”) geralmente são a melhor escolha.
  • Elas parecem mais limpas e geralmente são mais fáceis de navegar.

Sempre da pra melhorar ;)

Sempre da pra melhorar ;)

Sempre da pra melhorar ;)

Cada dataviz uma função

Para saber mais

  • O poder da paleta: por que a cor é fundamental na visualização de dados e como usá-la por Alan Wilson.
  • Sutilezas da cor por Robert Simmon. Introdução exaustiva à teoria das cores em seis partes.
  • Viz Palette for Data Visualization Color de Elijah Meeks. Regras de uso de cores na visualização de dados
  • Faça do cinza seu melhor amigo por Andy Kirk. Explica todas as maneiras pelas quais o cinza é importante para a visualização de dados.
  • Como o mapa de cores do arco-íris engana por Robert Kosara. Explica as deficiências das populares escalas de cores do arco-íris.
  • Data Stories: Color com Karen Schloss. Episódio de podcast muito recente sobre regras gerais para uso de cores em viz de dados.

Alfabetização de dados



https://www.ted.com/talks/jordan_morrow_why_everyone_should_be_data_literate?language=pt

Ferramentas de Análise de Dados

As ferramentas e softawers de análise de dados têm grande expansão nos últimos anos.

  • orientada em click e point.

  • orientada por linguagem de programação.

Principais softwares de análise de dados

Comerciais open-source vizualização de dados
Stata R Power BI
SAS Python Tableu
SPSS Google sheets Google Data Studio
MATLAB
EXCEL

Excel

  • Editor de planilhas, desenvolvido pela Microsoft, comercial.

  • Útil para algumas manipulações de dados e análises básicas.

  • Vizualização.

  • Escrever códigos VBA (Visual Basic for Applications) personalizados para criar automações e ampliar a funcionalidade do Excel.

Excel

Google Sheets

Stata

(http://www.stata.com/)

  • Interface gráfica amigável.

  • Manipulação, análises estatísticas avançadas.

  • Linguagem de programação e click point.

  • 1.700 dólares (de todos os softwares comerciais, é o que tem o melhor custo benefício).

SPSS e SAS

http://www.sas.com/ http://www.ibm.com/analytics/us/en/technology/spss/

  • interface gráfica amigável
  • manipulação, análises estatísticas avançadas.
  • são mais antigos e mais caros

Publicações Google Scholar

Power BI

  • Dashboards
  • Manipulação e modelagem de dados.
  • Vizualizações mais básicas click point
  • Configurações mais avançadas por linguagem.
  • Sistema operacional: windows.

Power BI

  • interface gráfica amigável.
  • Design think e experiência do usuário.

Power BI Desktop

https://coronavirus.jhu.edu/map.html

Power BI Desktop

  • Gratuito: É adequado para usuários domésticos, mas não tanto para empresas.

  • Power BI Pro - US$ 13,70 por usuário/mês

  • Power BI Premium - US$ 27,50 por usuário/mês : para aqueles em nível empresarial, esta taxa oferece ferramentas de análise de big data.

  • US$ 6.858,10 por capacidade/mês : para organizações inteiras, esta opção oferece o mesmo acesso, mas em uma escala

Tableu

https://www.tableau.com/pt-br/products/cloud-bi

  • O Tableau foi lançado pela primeira vez em 2004.
  • Dispositivos de arrastar e soltar para os usuários criarem visuais e painéis interativos.

Tableu

  • Tableau Public
    • Free : Este é para usuários domésticos e pode ser usado para criar visualizações conectadas a arquivos Excel, CSV e JSON.
    • Todas as visualizações serão visíveis publicamente.


  • Tableau Creator
    • US$ 70 por mês/usuário : esta opção é para indivíduos e membros da equipe e fornece acesso ao Tableau Desktop, Tableau Prep Builder e uma licença Creator para Tableau Server ou Tableau Cloud.

Pyton

  • http://www.python.org/
  • O Python é uma linguagem de programação.
  • Inúmeros packages de análise de dados e ferramentas avançadas
  • possui um modelo de desenvolvimento comunitário,
  • aberto e gerenciado pela organização sem fins lucrativos Python Software Foundation.

Oi mundo!



Introdução a linguagem R.

Definição

  • É uma linguagem de programação.
  • É um ambiente de software para computação estatística e gráficos.

Linguagem

  • Linguagem escrita

  • Linguagem de sinais

  • Linguagem de programação


  • Linguagem é um meio sistemático de comunicar através de signos.

Estrutura de uma linguagem

  • unidade sintática: oração (sujeito, verbo e predicado).
  • Caracteriza-se, obrigatoriamente, pela presença de um verbo.
    • Vou dançar hoje a noite.
    • Dançar a vou noite hoje.
  • Conjunto de termos da oração que organizados transmitem um significado completo.

Estrutura de uma linguagem

  • A linguagem de programação é formada por um conjunto de regras sintáticas.

  • Conjunto de termos da oração que organizados transmitem um significado completo.

  • Verbos: ações a serem executadas

  • filter()

  • select()

  • table()

  • import()

  • export ()

  • plot()

Estrutura de uma linguagem



O aprendizado e a proeficiência de qualquer linguagem exige: tempo, exposição e vocabulário.

Análoga a qualquer aprendizado de lingua não nativa.

Estrutura de uma linguagem



banco_dengue %>% filter(faixa_etaria >= 60)

banco_dengue %>% count(CLASSI_FIN)

  • análogo a uma oração (linha de código)
    1. Sujeito
    1. verbo (ação)
    1. parâmetro

Estrutura de linguagem

As operações seguem a mesma ordem de precedência que aprendemos em matemática na escola.

Códigos

  • As linhas de códigos são orientações.
  • o conjunto dessas orientações compoem um algoritmo.


banco_dengue %>% count(CS_SEXO)

Códigos

  CS_SEXO    n
1       F 1422
2       I    2
3       M 1503

Códigos



  banco_dengue %>% 
  tabyl(CLASSI_FIN) %>% 
  adorn_pct_formatting() 

Códigos

 CLASSI_FIN    n percent valid_percent
         10  478   16.3%         16.8%
         11   12    0.4%          0.4%
          5 2202   75.2%         77.6%
          8  145    5.0%          5.1%
       <NA>   90    3.1%             -

Códigos

# library
library(ggplot2)
library(dplyr)
library(hrbrthemes)

# Build dataset with different distributions
data <- data.frame(
  type = c( rep("variable 1", 1000), rep("variable 2", 1000) ),
  value = c( rnorm(1000), rnorm(1000, mean=4) )
)

# Represent it
p <- data %>%
  ggplot( aes(x=value, fill=type)) +
    geom_histogram( color="#e9ecef", alpha=0.6, position = 'identity') +
    scale_fill_manual(values=c("#69b3a2", "#404080")) +
    theme_ipsum() +
    labs(fill="")

p

Códigos

Pacotes

  • Um pacote contém uma coleção de funções.
  • Os pacotes são criados por desenvolvedores.
  • Fornecem funcionalidades específicas para diferentes tarefas.

Pacotes

Para encontrar um pacote, autor, tema e recursos relacionados a palavra chave 🎯

https://buff.ly/3jXXrhs

Quem usa o R?

  • Tem popularidade acadêmica e científica.

    • Universidades e escolas.

    • Institutos de pesquisa.

    • Órgãos governamentais.

R nas empresas

Ranking no GitHub hoje

https://madnight.github.io/githut/#/issues/2019/1

Porque utilizar o R?

Acessibilidade

  • É um software livre (sem taxas de licença)
  • Multiplataforma: Linux, Mac OS, Windows, Android.

Porque utilizar o R?

Acessibilidade


Capital próprio e código aberto


Um usuário de R em qualquer parte do mundo pode desenvolver e disponibilizar códigos.


Isto se opõe ao comportamento padrão das fabricantes de software, que costumam não liberar o código de seus produtos para que não sejam alterados ou copiados sem autorização (ex. Excel).

Porque utilizar o R?

Missão


Avançar uma agenda de equidade, avançando a capacidade local, resolução de problemas locais e inovação descentralizada.

Porque utilizar o R?

Flexibilidade


  • Extensível: coleção de mais de 15 mil pacotes oficiais no CRAN.

  • Interoperabilidade & Interconectividade: APIs/drivers para outros softwares1.

Porque utilizar o R?

As listas de discussão oficiais

Porque utilizar o R?

R-BR · A lista nacional oficial de R

Porque utilizar o R?

R no Stackoverflow

Todas as dúvidas já foram em algum momento respondidas.

Porque utilizar o R?

Compatibilidade


Linguagens como Python e SQL, permitindo a utilização de suas funcionalidades em conjunto.

Porque utilizar o R?

  • Interação com muitas ferramentas comuns de coleta de dados, sites e softwares.

Porque usar o R?

Comunidade


R possui uma comunidade de usuários global ativa e engajada.

Porque utilizar o R?

Applied Epi

  • Pacotes desenvolvidos por time de epidemiologistas para epidemiologistas.
  • Applied Epi é uma organização sem fins lucrativos que fortalece a prática epidemiológica por meio de treinamento, ferramentas e suporte.

Porque utilizar o R?

Applied Epi


HOME DO MANUAL DO EPIDEMIOLOGISTA R

Porque utilizar o R?

R4epis


O R4epis é um projeto para desenvolver ferramentas de análises de dados para cobrir investigações comuns de surtos e pesquisas populacionais que seriam realizadas em um ambiente de resposta de emergência de MSF.

Porque utilizar o R?

R4epis


SitRep: modelos de “relatórios de situação” automatizados que cobrem investigações de surtos (síndrome de icterícia aguda, cólera, sarampo, meningite).


https://r4epis.netlify.app/

Porque utilizar o R?

Recon


O R Epidemics Consortium (RECON) é uma organização que reúne especialistas em ciência de dados, metodologia de modelagem, saúde pública e desenvolvimento de software para criar a próxima geração de ferramentas analíticas para informar a resposta a surtos de doenças , emergências de saúde e crises humanitárias , usando o software R e outros recursos gratuitos e de código aberto.


https://www.repidemicsconsortium.org/

Porque utilizar o R?

Porque utilizar o R?

Porque utilizar o R?

Porque utilizar o R?

Porque utilizar o R?

Rladies


R-LADIES É UMA ORGANIZAÇÃO MUNDIAL CUJA MISSÃO É PROMOVER A DIVERSIDADE DE GÊNERO NA COMUNIDADE R.

  • A comunidade R sofre de uma sub-representação de gêneros minoritários.

  • A missão do R-Ladies é alcançar uma representação proporcional, encorajando, inspirando e capacitando pessoas de gêneros atualmente sub-representados na comunidade R.

Porque utilizar o R?

Reprodutibilidade

  • Scripts salvam códigos de análises que precisam ser reproduzidas várias vezes.

  • Você consegue registrar os passos executados na análise e consegue compartilhar.

  • É excelente para criar rotinas, sistematizar tarefas repetitivas.

  • Reduz o tempo de resposta a cenários de saúde pública em rápida evolução.

Porque utilizar o R?

  • Você não precisa contar com a memória para saber os passos que foram executados.

  • Você consegue ajustar os erros que comete com mais facilidade.

  • Outras pessoas conseguem validar e testar.

  • Você desenvolve raciocínio lógico e organização mental.

Porque utilizar o R?

Diversas saídas.

Rstudio (ambiente de desenvolvimento)

Script

Porque utilizar o R?

recursos gráficos avançados e personalizáveis

  • epicurvas, séries temporais, mapas, gráficos publicáveis.

Porque utilizar o R?

recursos gráficos avançados e personalizáveis

Porque utilizar o R?

Galeria de tabelas

https://posit.co/blog/rstudio-community-table-gallery/

Porque utilizar o R?




Porque utilizar o R?



Breve história do R

Os Criadores

  • Desenvolvido por Ross Ihaka e Robert Gentleman.
  • University of Auckland, New Zealand.
  • Surgiu em 1993.
  • Seus inventores estavam focados em descobrir como tornar a análise de dados mais fácil.

Breve história do R

  • A linguagem utilizada na época era a linguagem S.
  • Uma das principais limitações da linguagem S era que ela só estava disponível em um pacote comercial, S-PLUS.

Breve história do R

“[Queríamos] que os usuários pudessem começar em um ambiente interativo, onde não se considerassem conscientemente como programadores. Então, à medida que suas necessidades se tornassem mais claras e sua sofisticação aumentasse, eles deveriam ser capazes de deslizar gradualmente para a programação, quando a linguagem e os aspectos do sistema se tornassem mais importantes.”

Breve história do R

Em 1995, tornar o software R livre.

Breve história do R

Core Team

  • Em 1995, grupo de desenvolvedores, estatísticos e cientistas da computação.

Breve história do R

CRAN

  • 1997 - servidor onde está o software e os pacotes que expandem funcionalidades.

O Projeto R

R versão 4.3.1 (Beagle Scouts) foi lançado em 2023-06-16.

Instalações obrigatórias

  1. Instalar o R:
  1. Instalar o RStudio:

Instalações recomendadas

  1. Google Chrome. Para exportar os relatórios em formato PDF, utilizamos uma função que depende do uso do navegador Google Chrome.

Mensagem Final

“Ainda que o R apresente uma curva de aprendizado elevada, considera-se que esta dificuldade inicial é recompensada pela gama de possibilidades de manipulação e análise de dados que o programa permite.”


Como qualquer novo software, há uma “curva” de aprendizado de tempo que você deve investir para se familiarizar.

Obrigada! ;)

  • bittenka@gmail.com
  • www.linkedin.com/in/biancabitte