Ferramentas e perspectivas pela linguagem de programação.
2023-06-25
Conceitos importantes
Ambiente de dados
Jornada do analista de dados
Alfabetização em análise de dados
Principais ferramentas de análise de dados
Introdução à linguagem R.
Dados Estruturados
Dados estão organizados em tabelas,distribuídos em linhas e colunas com valores pré-determinados.
Prontos pro analista consumir.
Dados Estruturados
Dados Semiestruturados
Possuem alguma estrutura ou organização parcial.
Exemplos incluem documentos XML, arquivos JSON e dados HTML.
Dados Semiestruturados
Dados Semiestruturados Quando a gente copia e cola uma info de uma página web.
Dados Não Estruturados
Informações que não possuem uma organização ou formato definido.
ilovepdf e similares.
Cuidado com os dados sensíveis retidos pela plataforma.
Análise de sentimentos como possibilidade de análise.
Análise de sentimentos sobre o lockdown no Brasil.
Técnica de linguagem de programação utilizada para coletar informações de páginas da web de forma estruturada e automatizada.
volume de dados alcança a casa dos 40.000 Exabytes (ou 40 trilhões de Gigabytes).
Divisão didática e prática (antes, durante e depois.)
Abrange todo o ecossistema necessário para gerenciar e utilizar os dados dentro de uma organização. Envolve um conjunto de recursos, tecnologias e práticas.
- Várias etapas envolvidas.
1. Extrair os dados - dados fontes secundárias: dados de laboratórios privados, dados do google, IBGE.
4. Disponibilizar
acessibilidade ao usuário.
aplicação web, software, api
Construção de um ambiente de dados da COVID-19 em Santa Catarina.
Integração dos diversas fonte de informação.
gerou uma quantidade massiva de dados.
passamos a lidar com dados de volume, velocidade e variedade (os 3 Vs do big data).
Necessidade de ferramentas e softwares de análise de dados avançadas para explorar e interpretar os dados em grande escala.
Na prática:
identificar padrões preliminares.
(re) pensar os objetivos da análise.
Envolve encontrar e eliminar quaisquer erros e imprecisões que possam afetar os resultados.
Limpeza
Transformam os dados (criar faixa etária, taxas, tabelas de contigência, unir bases de dados, etc.)
{fig-align=“center”}
2. Escolher o método de visualização errado - confuso, pois as partes do gráfico parecem semelhantes entre si e o valores não somam 100%.
3. Gráficos esmagadores com muitos dados
Ter muitos dados para mostrar tudo de uma vez pode sobrecarregar o leitor.
O usuário não consegue entender todos os detalhes da visualização, não sabe onde focar a atenção.
4. Omitir linha de base e escala truncada
5. Correlações sem causa
6. Zoom em dados- Esse tipo de visualização oculta dados importantes, dando aos usuários apenas uma parte.
7. Seleção de cores: Algumas cores se destacam mais que outras, dando peso desnecessário a esses dados. Use uma única cor com tonalidade variável.
8. Distribuição dos dados e multiplas categorias.
9. Desordenação das categorias.
10. Variáveis categóricas em gráfico de rosca.
Considere as pessoas daltônicas.
https://www.ted.com/talks/jordan_morrow_why_everyone_should_be_data_literate?language=pt
As ferramentas e softawers de análise de dados têm grande expansão nos últimos anos.
orientada em click e point.
orientada por linguagem de programação.
| Comerciais | open-source | vizualização de dados |
|---|---|---|
| Stata | R | Power BI |
| SAS | Python | Tableu |
| SPSS | Google sheets | Google Data Studio |
| MATLAB | ||
| EXCEL | ||
Editor de planilhas, desenvolvido pela Microsoft, comercial.
Útil para algumas manipulações de dados e análises básicas.
Vizualização.
Escrever códigos VBA (Visual Basic for Applications) personalizados para criar automações e ampliar a funcionalidade do Excel.
Interface gráfica amigável.
Manipulação, análises estatísticas avançadas.
Linguagem de programação e click point.
1.700 dólares (de todos os softwares comerciais, é o que tem o melhor custo benefício).
http://www.sas.com/ http://www.ibm.com/analytics/us/en/technology/spss/
Gratuito: É adequado para usuários domésticos, mas não tanto para empresas.
Power BI Pro - US$ 13,70 por usuário/mês
Power BI Premium - US$ 27,50 por usuário/mês : para aqueles em nível empresarial, esta taxa oferece ferramentas de análise de big data.
US$ 6.858,10 por capacidade/mês : para organizações inteiras, esta opção oferece o mesmo acesso, mas em uma escala
https://www.tableau.com/pt-br/products/cloud-bi
Introdução a linguagem R.
Linguagem escrita
Linguagem de sinais
Linguagem de programação
A linguagem de programação é formada por um conjunto de regras sintáticas.
Conjunto de termos da oração que organizados transmitem um significado completo.
Verbos: ações a serem executadas
filter()
select()
table()
import()
export ()
plot()
O aprendizado e a proeficiência de qualquer linguagem exige: tempo, exposição e vocabulário.
Análoga a qualquer aprendizado de lingua não nativa.
banco_dengue %>% filter(faixa_etaria >= 60)
banco_dengue %>% count(CLASSI_FIN)
As operações seguem a mesma ordem de precedência que aprendemos em matemática na escola.
CS_SEXO n
1 F 1422
2 I 2
3 M 1503
CLASSI_FIN n percent valid_percent
10 478 16.3% 16.8%
11 12 0.4% 0.4%
5 2202 75.2% 77.6%
8 145 5.0% 5.1%
<NA> 90 3.1% -
# library
library(ggplot2)
library(dplyr)
library(hrbrthemes)
# Build dataset with different distributions
data <- data.frame(
type = c( rep("variable 1", 1000), rep("variable 2", 1000) ),
value = c( rnorm(1000), rnorm(1000, mean=4) )
)
# Represent it
p <- data %>%
ggplot( aes(x=value, fill=type)) +
geom_histogram( color="#e9ecef", alpha=0.6, position = 'identity') +
scale_fill_manual(values=c("#69b3a2", "#404080")) +
theme_ipsum() +
labs(fill="")
pPara encontrar um pacote, autor, tema e recursos relacionados a palavra chave 🎯
Tem popularidade acadêmica e científica.
Universidades e escolas.
Institutos de pesquisa.
Órgãos governamentais.
Acessibilidade
Acessibilidade
Capital próprio e código aberto
Um usuário de R em qualquer parte do mundo pode desenvolver e disponibilizar códigos.
Isto se opõe ao comportamento padrão das fabricantes de software, que costumam não liberar o código de seus produtos para que não sejam alterados ou copiados sem autorização (ex. Excel).
Missão
Avançar uma agenda de equidade, avançando a capacidade local, resolução de problemas locais e inovação descentralizada.
Flexibilidade
As listas de discussão oficiais
R-BR · A lista nacional oficial de R
R no Stackoverflow
Todas as dúvidas já foram em algum momento respondidas.
Compatibilidade
Linguagens como Python e SQL, permitindo a utilização de suas funcionalidades em conjunto.
Comunidade
R possui uma comunidade de usuários global ativa e engajada.
Applied Epi
Applied Epi
R4epis
O R4epis é um projeto para desenvolver ferramentas de análises de dados para cobrir investigações comuns de surtos e pesquisas populacionais que seriam realizadas em um ambiente de resposta de emergência de MSF.
R4epis
SitRep: modelos de “relatórios de situação” automatizados que cobrem investigações de surtos (síndrome de icterícia aguda, cólera, sarampo, meningite).
Recon
O R Epidemics Consortium (RECON) é uma organização que reúne especialistas em ciência de dados, metodologia de modelagem, saúde pública e desenvolvimento de software para criar a próxima geração de ferramentas analíticas para informar a resposta a surtos de doenças , emergências de saúde e crises humanitárias , usando o software R e outros recursos gratuitos e de código aberto.
Rladies
R-LADIES É UMA ORGANIZAÇÃO MUNDIAL CUJA MISSÃO É PROMOVER A DIVERSIDADE DE GÊNERO NA COMUNIDADE R.
A comunidade R sofre de uma sub-representação de gêneros minoritários.
A missão do R-Ladies é alcançar uma representação proporcional, encorajando, inspirando e capacitando pessoas de gêneros atualmente sub-representados na comunidade R.
Reprodutibilidade
Scripts salvam códigos de análises que precisam ser reproduzidas várias vezes.
Você consegue registrar os passos executados na análise e consegue compartilhar.
É excelente para criar rotinas, sistematizar tarefas repetitivas.
Reduz o tempo de resposta a cenários de saúde pública em rápida evolução.
Você não precisa contar com a memória para saber os passos que foram executados.
Você consegue ajustar os erros que comete com mais facilidade.
Outras pessoas conseguem validar e testar.
Você desenvolve raciocínio lógico e organização mental.
Diversas saídas.
recursos gráficos avançados e personalizáveis
recursos gráficos avançados e personalizáveis
Galeria de tabelas
Book: https://r4ds.had.co.nz/
Apresentações: https://www.garrickadenbuie.com/talk/build-your-own-universe/
“[Queríamos] que os usuários pudessem começar em um ambiente interativo, onde não se considerassem conscientemente como programadores. Então, à medida que suas necessidades se tornassem mais claras e sua sofisticação aumentasse, eles deveriam ser capazes de deslizar gradualmente para a programação, quando a linguagem e os aspectos do sistema se tornassem mais importantes.”
Em 1995, tornar o software R livre.
Core Team
CRAN
R versão 4.3.1 (Beagle Scouts) foi lançado em 2023-06-16.
Download direto: https://vps.fmvz.usp.br/CRAN/
Tutorial: https://livro.curso-r.com/1-1-instalacao-do-r.html
PDF, utilizamos uma função que depende do uso do navegador Google Chrome.“Ainda que o R apresente uma curva de aprendizado elevada, considera-se que esta dificuldade inicial é recompensada pela gama de possibilidades de manipulação e análise de dados que o programa permite.”
Como qualquer novo software, há uma “curva” de aprendizado de tempo que você deve investir para se familiarizar.