Análise exploratória de dados

Introdução aos conceitos estatísticos e ao software R

Introdução

A velocidade com que tecnologias disruptivas têm sido lançadas neste século é estonteante e a capacidade de armazenamento e processamento explicam boa parte dessa história. Nos últimos dois anos, por exemplo, foram produzidos mais dados que em toda a história da humanidade. O WITCH (Wolverhampton Instrument for Teaching Computing from Harwell), computador mais antigo em funcionamento e que começou a operar na década de 1950, pesa 2,5 toneladas e pode armazenar apenas 90 números. Empresas como o Dropbox oferecem hoje armazenamento ilimitado em planos que custam menos de US$ 10 por mês. Novas tecnologias, como o telefone, demoraram mais de 70 anos para atingir 50 milhões de pessoas, enquanto smartphones demoraram menos de 5 anos para atingir essa marca.

Segundo John Chambers (CEO da CISCO por 20 anos), 40% dos negócios irão falir em 10 anos no Reino Unido: “Serão 50 bilhões de aparelhos conectados na internet das coisas em 2020 e 500 bilhões em 2030; isso vai mudar tudo”. Os desafios que se apresentam para os próximos anos lançam dúvidas quanto a certos paradigmas do mundo de negócios contemporâneo. Charles O’Relly III e Michael Tushman, autores do best seller “Lead and Disrupt: How to Solve the Innovator’s Dilemma”, defendem que só há um caminho para a empresa: ser ambidestro. Em linhas gerais, os autores argumentam que, para crescer, as empresas precisam criar vários processos que as tornem rígidas. Paradoxalmente, contudo, essa rigidez tem impedido as empresas de acelerar o processo de decisões e acompanhar o processo de mudança célere que estamos vivendo, tornando-as não competitivas.

No centro deste movimento está o conjunto de metodologias envolvidas no conceito geral de “Big Data”, que deve ser entendido em termos de três dimensões complementares: (i) novos paradigmas de obtenção de informações; (ii) algoritmos estatísticos concebidos em torno dos problemas de classificação, previsão e descobrimento de padrões, denominados de forma geral como algoritmos de “aprendizagem estatística” ou “aprendizado de máquina”; e (iii) novas estratégias computacionais.

O curso Análise Exploratória de Dados é uma parte dessa grande área chamada Big data e está caucado em três objetivos fundamentais: (i) introduzir o software R e mostrar suas principais ferramentas; (ii) introduzir os pacotes do tidyverse, uma coleção opinativa de pacotes R projetados para a ciência de dados; e, por fim, (iii) introduzir os pacotes de visualização ggplot2, um sistema para criar gráficos de forma declarativa, baseado em The Grammar of Graphics e PlotlyR.

Este é um curso de 20 horas-aula. Ao final do curso, o aluno terá muitas respostas, no entanto, certamente, novas questões irão emergir. Espera-se que o aluno, ao final do curso, aprenda a manusear uma importante ferramenta de análise de dados, o software R. Nessa plataforma, serão apresentados importantes pacotes para análise e visualização de dados.

Para melhor aproveitar o curso o aluno deve: (i) estudar pelo menos 3 horas para cada hora-aula assistida; (ii) fazer toda a lista de exercícios; (iii) começar a pensar a relação entre o que foi aprendido em sala de aula e o seu dia a dia; e, (iv) pensar/estudar coisas novas.

Leve esse curso para sua empresa. Entre em contato com a Model Thinking Br: [cursos in company MTBr]

Módulo 1 - Brainstorm sobre o curso + Introdução ao R

Apresentação professor: Aulas + coordenação; FGV|IBRE (Lab de invação + IA): IIE-Br; Fecomércio; Wooza; BETS; Portal da Inflação; MTBr - consultoria: ONS(Copa do Mundo - Brasil, novelas); Duratex; Coca-Cola; Sulamérica; Instituto Unibanco; Duke Energy (Problema de otimizaçao do SEB); Light; Ampla.

Apresentação alunos (nome, empresa, o que espera do curso?) + Apresentação do curso “Análise exploratória de dados”

Exercício em grupo: conceitos de Ciência de dados1 Comentários sobre o exercício

Uma breve discussão sobre os procedimentos padrões para se trabalhar com dados2 R para data science: (i) Formulação da pergunta de pesquisa; (ii) Recuperação dos dados ; (iii) Preparação de dados; (iv) Exploração de dados; (v) Modelagem dos dados; (vi) Apresentação

R software: primeiros comentários3 apresentação - R software

SWIRL() package: install.packages(“swirl”); library(swirl); swirl()[path(1:Continue; 1: R Programming: The basics of programming in R; 1: R Programming; 1: Basic Building Blocks)]4 swirl teaches you R programming and data science interactively, at your own pace, and right in the R console!

SWIRL() package - instructions: skip() allows you to skip the current question; play() lets you experiment with R on your own; bye() causes swirl to exit. Your progress will be saved; main() returns you to swirl’s main menu; info() displays these options again

Core language: Aritmética Básica e Operações Lógicas5 R: Logical Operators; Características básicas da linguagem; Compreendendo diretórios; Área de Trabalho (Workspace); Tipos de Dados: logical, character, numeric

Referências para estudo
Ferreira, P. G. C. et. al. Análise de Séries Temporais em R: curso introdutório. 1 ed. - Rio de Janeiro: Elsevier: FGV IBRE, 2018. 264p. [capítulo 1]

Introduction to R for Data Science: este é um curso introdutório e irá ajuda-lo a entender conceitos básicos de programação em R;

Vídeos sobre o R (FGV/IBRE | NMEC): vídeos em português produzidos pelo nosso time da FGV que facilitarão o entendimento de conceitos básicos de programação em R;

Khan Academy: ideal para aprender conceitos básicos de matemática e estatística;

Hal R. Varian. Big Data: New Tricks for Econometrics. Journal of Economic Perspectives, 2013.

Richard Cotton. Learning R

Rafael A. Irizarry Introduction to Data Science: Real-World Data Analysis and Prediction Algorithms with R

R Challenges: exercícios mais avançados no R.6 R challenges

Módulo 2 - R: primeiros passos

Packages, Summary Statistics: Pacotes; Dados faltantes; Obtendo sumários de data frames; Resumos de vetores numéricos (ou variáveis data frame); Exercícios

Características de um grande cientista de dados: busca solução e sabe que não é perfeito; É obcecado por resolver problemas e não por novas ferramentas; É um excelente comunicador

Strings, import and export data: Funções strings; Importando dados; Exportando dados; Exercícios

Do it yourself: exercícios selecionados para serem feitos em sala de aula

Referências para estudo
Ferreira, P. G. C. et. al. Análise de Séries Temporais em R: curso introdutório. 1 ed. - Rio de Janeiro: Elsevier: FGV IBRE, 2018. 264p. [capítulo 1]

Introduction to R for Data Science: este é um curso introdutório e irá ajuda-lo a entender conceitos básicos de programação em R;

Módulo 3 - R: keep walking

Strings, import and export data: Funções strings; Importando dados; Exportando dados; Exercícios

Condition and repetition structures + functions: Estrutura if; estrtura if e else; Estrutura while; Estrutura for; Funções; source(); Exercícios

Do it yourself: exercícios selecionados para serem feitos em sala de aula

Referências para estudo
Ferreira, P. G. C. et. al. Análise de Séries Temporais em R: curso introdutório. 1 ed. - Rio de Janeiro: Elsevier: FGV IBRE, 2018. 264p. [capítulo 1]

Introduction to R for Data Science: este é um curso introdutório e irá ajuda-lo a entender conceitos básicos de programação em R;

Módulo 4 - Rmarkdown + Introdução ao Tidyverse

Ferramentas de apresentação: Rmarkdown; RShiny, Rpubs (breves comentários)

Introdução ao Tidyverse: gapminder; dplyr; filter(); pipe; arrange(); mutate(); ggplot2; ggplot(); summarize(); group_by()

Kaggle: The home of Data Science & Machine Learning7 Kaggle: The home of Data Science & Machine Learning

Kaggle ML and Data Science Survey, 2017 - A big picture view of the state of data science and machine learning

Do it yourself: exercícios selecionados para serem feitos em sala de aula

Referências para estudo
Garrett Grolemund and Hadley Wickham. R for Data Science: this book will teach you how to do data science with R: You’ll learn how to get your data into R, get it into the most useful structure, transform it, visualise it and model it.

Yihui Xie. Dynamic Documents with R and knitr, Second Edition: um dos melhores livros sobre Rmarkdown.

Data Visualization in R: provides a comprehensive introduction on how to plot data with R’s default graphics system, base graphics.

Tidyverse8 tidyverse.org: R packages for data science

purr package: providing a complete and consistent set of tools for working with functions and vectors

dplyr package: a grammar of data manipulation

modelr and broom packages: Modelling within the tidyverse is largely a work in progress

Módulo 5 - Tidyverse + Visualização de dados

ggplot2 package: a system for declaratively creating graphics, based on The Grammar of Graphics

MPG vs horsepower, colored by transmission. MPG vs horsepower, colored by transmission.

library(ggplot2)
mtcars2 <- mtcars
mtcars2$am <- factor(
  mtcars$am, labels = c('automatic', 'manual')
)
ggplot(mtcars2, aes(hp, mpg, color = am)) +
  geom_point() + geom_smooth() +
  theme(legend.position = 'bottom')

Package esquisse: RStudio add-in to make plots with ggplot29 https://github.com/dreamRs/esquisse

plotly package10 Não faz parte do tidyverse, mas iterage muito bem com o ggplot2. Acesse o site do pacote: graphing library makes interactive, publication-quality graphs online

Exercício em grupo: Manipulação e Visualização de dados utilizando os pacotes do tidyverse()11 Exercício Tidyverse – Aeroporto de Nova Iorque

RStudio project: (i) Criando o primeiro projeto; (ii) Trabalhando no nosso novo projeto; (iii) Testando as nossas funções; (iv) Packrat

In-house production12 Apresentação com alguns estudos de caso da MTBr (i) Como está a incerteza econômica? (ii) Nowcasting; (iii) Rshiny e visualização de dados: qual é a previsão da produção industrial? (iv) Empresa SEB: o que fazer com o crescente aumento das provisões com ações judiciais; (v) Empresa setor elétrico: qual é a chance desse cliente me processar? (vi)Duratex e Coca-Cola: previsões para 1 ano, 3 anos e 10 anos a frente; (vii) DSL management – MTBr13 conheça um pouco mais sobre esse projeto clicando aqui.

Referências para estudo

Data Visualization with ggplot2 (Part 1): introduces you to the principles of good visualizations and the grammar of graphics plotting concepts implemented in the ggplot2 package.

Data Visualization with ggplot2 (Part 2): builds on your knowledge from the first course to produce meaningful explanatory plots.

Documentação plotly: Bring data science out of the lab and into the business.

Instruções

Instalando o R: (i) Vá no site cran.r-project.org (R-3.5.0 for Windows); (ii) Faça download do arquivo e clique em executar [para melhor performance instale a versão 64 bits]

Instalando o RStudio: (i) Vá no site rstudio.com; (ii) Clique em download; (iii) Escolha a versão free; (iv) Faça o download do Arquivo e clique em executar.

Pacotes R para Data Science

install.packages(c("tidyverse", "magrittr", "hflights", "plotly", "Hmisc", 
                   "dygraphs","rmarkdown", "AER", "MASS"))
                 
#Não deixe de testar os pacotes:
library(nome do pacote)

Material do curso: envie e-mail para pedro@modelthinkingbr.com com o título “MBA-AED - adicionar no dropbox”

#Este curso é oferecido por:

Model Thinking Br14 Conheça nosso portfólio de cursos aqui
contato@modelthinkingbr.com [cursos in company MTBr]