Introdução

Nós estamos testemunhando um movimento que irá transformar completamente qualquer negócio e a sociedade. O nome que nós damos a esse movimento é Big Data, e irá mudar tudo: a maneira que os bancos e varejistas operam, a forma que tratamos o câncer e protegemos o mundo contra o terrorismo. Não importa qual o trabalho que você está fazendo ou a indústria que você trabalha, Big Data irá transformá-lo.

Para se ter uma ideia da importância dessa nova onda e da nova profissão denominada ciência de dados (data science), em 2012, a revista Harvard Business Review publicou um artigo intitulado Data Scientist: The Sexiest Job of the 21st Century.11 Data Scientist: The Sexiest Job of the 21st Century Neste artigo, os autores abordam o perfil do cientista de dados, destacando que os mesmos são difíceis e caros para contratar e, dada a competitividade do mercado, são difíceis de manter. Mais recentemente, a revista The Economist publicou o seguinte artigo: The world’s most valuable resource is no longer oil, but data22 The world’s most valuable resource is no longer oil, but data. Nele, os autores argumentam que ter dados atualmente é o mesmo que ter petróleo há 100 anos atrás e que essa nova onda está criando o que os autores chamam de Economia dos Dados (Data Economy33 Data is giving rise to a new economy). Para se ter uma ideia, as 5 empresas mais valiosas do mundo atualmente são Alphabet (dona da Google), Amazon, Apple, Facebook e Microsoft, todas da área de tecnologia e que oferecem diversos serviços gratuitos em troca de dados.

Apesar de parecer algo distante, a economia dos dados está modificando as mais diversas áreas e empregos. Quem imaginaria que as vídeo-locadoras seriam substituídas tão rapidamente por empresas como a Netflix, ou que as pessoas preferem teclar a falar (Whatsapp vs Telecom)? Para se ter uma ideia, das 500 maiores empresas listadas pela revista Fortune em 1955, apenas 57 aparecem nessa mesma lista no ano de 2015. Você acredita que estará no mesmo emprego daqui a 5 ou 10 anos? O que a sua empresa está fazendo para se adaptar a este novo padrão econômico?

É claro que nem todo mundo irá se tornar um cientista de dados ou um expert em machine learning. Contudo, quem quiser sobreviver, precisará surfar essa nova onda e entender quais são as novas tecnologias, os potenciais para o seu negócio, as ameaças, e principalmente, como criar, liderar e demandar equipes que detenham esse novo perfil. Objetivando atender uma demanda crescente das empresas, de C-levels e curiosos, pessoas que entendem a importância da matemática, da estatística e da ciência da computação, mas que não precisam ou não querem entender as especificidades técnicas que norteiam a formação de um cientista de dados, nós criamos este curso este curso de 16 horas-aula, denominado Business analytics: tendências, desafios e oportunidades.

Ao final do curso, o aluno terá muitas respostas, no entanto, certamente, novas questões irão emergir. Entretanto, o ponto de partida para o conhecimento e preparação para essa nova onda está aqui. Entre em contato: contato@modelthinkingbr.com [cursos in company MTBr]

Módulo 1 - Introdução a ciência de dados

Kaggle: The home of Data Science & Machine Learning44 Kaggle: The home of Data Science & Machine Learning

Kaggle ML and Data Science Survey, 2017 - A big picture view of the state of data science and machine learning

Linguagem C: Dev-C++; exemplo de programa usando função em C

Principais ferramentas de data science: Anaconda, Jupyter, Julia55 juliabox.com, Lua, Python [Spyder, pandas, numpy, matplotlib]

Julia is fast: desafiantes: C, python (built-in), python (numpy), python (hand-written), Julia (built-in), Julia (hand-written). Vamos somar 10^7 números gerados aleatoriamente de uma distribuição uniforme66 Uniform Distribution

Python77 Python Brasil: A comunidade Python Brasil reune grupos de usuários em todo o Brasil interessados em difundir e divulgar a linguagem de programação.: introdução ao Python com o Jupyter (Conhecendo o Jupyter Markdown; Operadores Básicos; Operadores Lógicos; Objetos; Trabalhando com data frames; importando dados); visualização de dados com o Spyder ()

Tidyverse88 tidyverse.org: R packages for data science

Gráficos com o ggplot2

MPG vs horsepower, colored by transmission.

library(ggplot2)
mtcars2 <- mtcars
mtcars2$am <- factor(
  mtcars$am, labels = c('automatic', 'manual')
)
ggplot(mtcars2, aes(hp, mpg, color = am)) +
  geom_point() + geom_smooth() +
  theme(legend.position = 'bottom')

Roadmap para se tornar um cientista de dados: (i) A evolução para a ciência de dados; (ii) O que pode fazer um cientista de dados? (iii) Características de um grande cientista de dados

Ciclo básico de Data Science (estatística; Data Management e Computação na Nuvem; Visualização de dados e Dynamic reports; Bancos de Dados em Larga Escala: Hadoop e NoSQL; Machine Learning; Estatística Espacial; Análise de Séries Temporais; Redes Neurais; Big Data Analytics pela ótica de negócios)

Recomendações para se tornar um cientista de dados

Human resources analytics (um caso prático de business analytics e machine learning)99 Estudo de caso MTBr

Data Science lab - relacionamento com as demais áreas da empresa, tamanho da equipe, atividades do primeiro ano, desafios, prazos, etc.

Referências para estudo
Ferreira, P. G. C. et. al. Análise de Séries Temporais em R: curso introdutório. 1 ed. - Rio de Janeiro: Elsevier: FGV IBRE, 2018. 264p. [capítulo 1]

Introduction to R for Data Science: este é um curso introdutório e irá ajuda-lo a entender conceitos básicos de programação em R;

Vídeos sobre o R (FGV/IBRE | NMEC): vídeos em português produzidos pelo nosso time da FGV que facilitarão o entendimento de conceitos básicos de programação em R;

Khan Academy: ideal para aprender conceitos básicos de matemática e estatística;

Garrett Grolemund and Hadley Wickham. R for Data Science: this book will teach you how to do data science with R: You’ll learn how to get your data into R, get it into the most useful structure, transform it, visualise it and model it.

Getting Started With Data and dplyr: este curso introduz dois importantes pacotes para a manipulação e visualização de dados, o dplyr e o plotly.

Introduction to the Tidyverse: este curso é uma introdução ao Tidyverse.

Introduction to Julia: são notebooks disponíveis no juliaBox.

Python para Zumbis: curso gratuito, em português, de introdução ao Python.

Módulo 2: Business Analytics + In house production

Novas (mas nem tanto) tecnologias: como elas irão mudar a nossa vida: Falcon Heavy - SpaceX; Computação cognitiva; Amazon go; Inteligência artificial;Self driving truck, Impressora 3D, Amazon [KIVA] robots; Tesla: o que as empresas estão pensando sobre logística e plantas industriais? Life insurance business + IoT; Internet das Coisas (IoT)

4ª Revolução Industrial

Economia de dados (Data economy): the world’s most valuable resource is no longer oil, but data

O que é Big Data e Data Science?

Qual o real ritmo da mudança? (i) Introdução da evolução da Tecnologia de armazenamento de dados; (ii) Qual é a chance de sua empresa estar viva nos próximos 10 anos? (iii) Charles O’Reilly: How can established companies avoid falling prey to disruption? (iv) Ambidexterity: talvez o único caminho para a sobrevivência; (v) Startup’s como modelo de negócio (e.g. Alphabet); (vi) Qual será o seu emprego daqui a 10 anos?

Você sabe o que é um CDO?!

Qual é a probabilidade de sua profissão ser automatizada?

Big Data Analytics pela ótica de negócios (i) O que é Business Analytics? (ii) Como é feito? (iii) Quem está usando? (iv) Desafios e dicas

DSML and AI projects - Pitfalls you must avoid!! (i) Six pitfalls to avoid when planning data science and machine learning projects (Gartner, 2018); (ii) Six pitfalls to avoid when executing data science and machine learning projects (Gartner, 2018); (iii) Market guide for data science and machine learning service providers (Gartner, 2017);

Conceitos de Big Data (i) Origem; (ii) 7 Vs; (iii) Escalabilidade; (iv) Elasticidade; (v) Cloud computing

Big Data, Big problems (i) Excesso de falsos positivos1010 Target.com; (ii) Correlações espúrias (Nature: Detecting influenza epdemics using search engine query data); (iii) Viés amostral (Franklin Roosevelt vs Alf Landon); (iv) Métodos errados para selecionar dados (falácia: with enough data, the numbers speak for themselves)

Cases Reais de Big Data Analytics (i) Walmart e o furacão Sandy; (ii) Por que o governo da Inglaterra está automatizando os seus relatórios? (iii) Netflix

In-house production

Como está a incerteza econômica?
Brazilian economic uncertainty and its impact on investments (workshop BACEN)
Nowcasting
IPC web
Rshiny e visualização de dados: qual é a previsão da produção industrial?
Empresa SEB: o que fazer com o crescente aumento das provisões com ações judiciais
Empresa setor elétrico: qual é a chance desse cliente me processar?
Duratex e Coca-Cola: previsões para 1 ano, 3 anos e 10 anos a frente
ANEEL: o problema de otimização do parque hidrotérmico brasileiro
Empresa SEB: a tarifa aumentou 50% e a renda da população caiu 5%, o que vai acontecer com a demanda de energia elétrica? E com a inadimplência?
Fraude e inadimplência: como detectar essas anomalias?
DSL management – MTBr

Digital transformation: are you ready for exponential change?

Estrutura das aulas e principais objetivos

Business Analytics: Kaggle+R+Python+Julia+Lua+Numpy+matplotlib - Nosso objetivo é conhecer algumas das principais ferramentas de data science e incentivá-los a explorá-las.

Roadmap para se tornar um cientista de dados; Business Analytics: Human resources analytics e Data Science lab - Nosso objetivo é falar um pouco sobre a profissão de cientista de dados e propor 2 exercícios que serão discutidos em sala de aula.

Novas (mas nem tanto) tecnologias; IOT; industrie 4.0; CDO; Advanced Analytics - Nosso objetivo é discutir a velocidade com que as coisas estão mudando e abordar os temas: big data, data science e business analytics.

In-house production (incerteza, coca, SEB, anti-fraude); data science lab; digital transformation - Nosso objetivo é discutir alguns projetos desenvolvidos em casa e comentar sobre os desafios, dificuldades, frustrações e vitórias.

Instruções e referências

Charles A. O’Reilly; Michael L. Tushman. Lead and Disrupt: How to Solve the Innovator’s Dilemma. 2016

Clayton M. Christensen. The Innovator’s Dilemma: When New Technologies Cause Great Firms to Fail. 2016

Erik Brynjolfsson; Andrew McAfeeMachine. Platform, Crowd: Harnessing Our Digital Future. 2017

Hadley Wickham; Garrett Grolemund. R for Data Science. 2017

Linguagem C: (i) instalar o compilador Dev-C++ (https://sourceforge.net/projects/orwelldevcpp/)

Instalando o R: (i) Vá no site cran.r-project.org; (ii) Faça download do arquivo e clique em executar [para melhor performance instale a versão 64bits]

Instalando o RStudio: (i) Vá no site rstudio.com; (ii) Clique em download; (iii) Escolha a versão free; (iv) Faça o download do Arquivo e clique em executar.

Instalando o Anaconda: (i) Vá no site https://www.anaconda.com/download/; (ii) Faça download do arquivo e clique em executar [para melhor performance instale a versão 64bits]

Instalando o Julia: (i) Vá no site https://julialang.org/downloads/; (ii) Faça download do arquivo e clique em executar [para melhor performance instale a versão 64bits]

Pacotes Python: pandas, numpy, matplotlib, sklearn, scipy, TensorFlow, geopandas, pysal [pacotes já incluídos no Anaconda] ++ altair (https://altair-viz.github.io/); seaborn ( http://seaborn.pydata.org/) [esses 2 pacotes precisam ser instalados – execute os comandos abaixo no prompt do Anaconda]

import numpy as np
import matplotlib.pyplot as plt

## No prompt de comando do Anaconda
conda install altair --channel conda-forge
conda install seaborn

Pacotes R

Data Visualization + Dinamic reports

install.packages(c("readxl","plotly", "corrplot", "plotrix", "RColorBrewer",
                   "VennDiagram", "visNetwork", "treemap", "tm", "wordcloud",
                   "devtools", "dygraphs", "rmarkdown", "flexdashboard", "shiny",
                   "shinydashboard", "shinythemes"))

Time series

install.packages(c("BETS","forecast","TSA","tseries","FinTS","ggfortify","fpp2")

Machine learning + Social media

install.packages(c("stringr", "stringi", "dplyr", "topicmodels", "rvest", "twitteR",
                   "streamR", "ROAuth", "Rfacebook", "MASS", "ISLR", "boot", "glmnet",
                   "e1071", "tree", "randomForest", "gbm", "caret", "ggplot2"))

Spatial Statistics

install.packages(c("rgdal", "cartography", "RColorBrewer", "plotGoogleMaps", "rworldmap",
                   "dismo", "RgoogleMaps", "googleVis", "spatstat", "maptools", "splancs",
                   "fields", "lattice", "spdep", "rgdal", "cartography", "RColorBrewer", 
                   "cartogram", "tmap", "leaflet", "gstat", "tripack"))

Integração com Python

install.packages(c("reticulate"))

Business analytics

Tendências, desafios e oportunidades

Introdução

Módulo 1 - Introdução a ciência de dados

Módulo 2: Business Analytics + In house production

Estrutura das aulas e principais objetivos

Instruções e referências

Este curso é oferecido por: