Nós estamos testemunhando um movimento que irá transformar completamente qualquer negócio e a sociedade. O nome que nós damos a esse movimento é Big Data, e irá mudar tudo: a maneira que os bancos e varejistas operam, a forma que tratamos o câncer e protegemos o mundo contra o terrorismo. Não importa qual o trabalho que você está fazendo ou a indústria que você trabalha, Big Data irá transformá-lo.
Para se ter uma ideia da importância dessa nova onda e da nova profissão denominada ciência de dados (data science), em 2012, a revista Harvard Business Review publicou um artigo intitulado Data Scientist: The Sexiest Job of the 21st Century.1 Data Scientist: The Sexiest Job of the 21st Century Neste artigo, os autores abordam o perfil do cientista de dados, destacando que os mesmos são difÃceis e caros para contratar e, dada a competitividade do mercado, são difÃceis de manter. Mais recentemente, a revista The Economist publicou o seguinte artigo: The world’s most valuable resource is no longer oil, but data2 The world’s most valuable resource is no longer oil, but data. Nele, os autores argumentam que ter dados atualmente é o mesmo que ter petróleo há 100 anos atrás e que essa nova onda está criando o que os autores chamam de Economia dos Dados (Data Economy3 Data is giving rise to a new economy). Para se ter uma ideia, as 5 empresas mais valiosas do mundo atualmente são Alphabet (dona da Google), Amazon, Apple, Facebook e Microsoft, todas da área de tecnologia e que oferecem diversos serviços gratuitos em troca de dados.
Apesar de parecer algo distante, a economia dos dados está modificando as mais diversas áreas e empregos. Quem imaginaria que as vÃdeo-locadoras seriam substituÃdas tão rapidamente por empresas como a Netflix, ou que as pessoas preferem teclar a falar (Whatsapp vs Telecom)? Para se ter uma ideia, das 500 maiores empresas listadas pela revista Fortune em 1955, apenas 57 aparecem nessa mesma lista no ano de 2015. Você acredita que estará no mesmo emprego daqui a 5 ou 10 anos? O que a sua empresa está fazendo para se adaptar a este novo padrão econômico?
É claro que nem todo mundo irá se tornar um cientista de dados ou um expert em machine learning. Contudo, quem quiser sobreviver, precisará surfar essa nova onda e entender quais são as novas tecnologias, os potenciais para o seu negócio, as ameaças, e principalmente, como criar, liderar e demandar equipes que detenham esse novo perfil. Objetivando atender uma demanda crescente das empresas, de C-levels e curiosos, pessoas que entendem a importância da matemática, da estatÃstica e da ciência da computação, mas que não precisam ou não querem entender as especificidades técnicas que norteiam a formação de um cientista de dados, nós criamos este curso este curso de 16 horas-aula, denominado Business analytics: tendências, desafios e oportunidades.
Ao final do curso, o aluno terá muitas respostas, no entanto, certamente, novas questões irão emergir. Entretanto, o ponto de partida para o conhecimento e preparação para essa nova onda está aqui. Entre em contato: contato@modelthinkingbr.com [cursos in company MTBr]
Kaggle: The home of Data Science & Machine Learning4 Kaggle: The home of Data Science & Machine Learning
Kaggle ML and Data Science Survey, 2017 - A big picture view of the state of data science and machine learning
Linguagem C: Dev-C++; exemplo de programa usando função em C
Principais ferramentas de data science: Anaconda, Jupyter, Julia5 juliabox.com, Lua, Python [Spyder, pandas, numpy, matplotlib]
Julia is fast: desafiantes: C, python (built-in), python (numpy), python (hand-written), Julia (built-in), Julia (hand-written). Vamos somar 10^7 números gerados aleatoriamente de uma distribuição uniforme6 Uniform Distribution
Python7 Python Brasil: A comunidade Python Brasil reune grupos de usuários em todo o Brasil interessados em difundir e divulgar a linguagem de programação.: introdução ao Python com o Jupyter (Conhecendo o Jupyter Markdown; Operadores Básicos; Operadores Lógicos; Objetos; Trabalhando com data frames; importando dados); visualização de dados com o Spyder ()
Tidyverse8 tidyverse.org: R packages for data science
Gráficos com o ggplot2
MPG vs horsepower, colored by transmission.
library(ggplot2)
mtcars2 <- mtcars
mtcars2$am <- factor(
mtcars$am, labels = c('automatic', 'manual')
)
ggplot(mtcars2, aes(hp, mpg, color = am)) +
geom_point() + geom_smooth() +
theme(legend.position = 'bottom')
Roadmap para se tornar um cientista de dados: (i) A evolução para a ciência de dados; (ii) O que pode fazer um cientista de dados? (iii) CaracterÃsticas de um grande cientista de dados
Ciclo básico de Data Science (estatÃstica; Data Management e Computação na Nuvem; Visualização de dados e Dynamic reports; Bancos de Dados em Larga Escala: Hadoop e NoSQL; Machine Learning; EstatÃstica Espacial; Análise de Séries Temporais; Redes Neurais; Big Data Analytics pela ótica de negócios)
Recomendações para se tornar um cientista de dados
Human resources analytics (um caso prático de business analytics e machine learning)9 Estudo de caso MTBr
Data Science lab - relacionamento com as demais áreas da empresa, tamanho da equipe, atividades do primeiro ano, desafios, prazos, etc.
Referências para estudo
Ferreira, P. G. C. et. al. Análise de Séries Temporais em R: curso introdutório. 1 ed. - Rio de Janeiro: Elsevier: FGV IBRE, 2018. 264p. [capÃtulo 1]
Introduction to R for Data Science: este é um curso introdutório e irá ajuda-lo a entender conceitos básicos de programação em R;
VÃdeos sobre o R (FGV/IBRE | NMEC): vÃdeos em português produzidos pelo nosso time da FGV que facilitarão o entendimento de conceitos básicos de programação em R;
Khan Academy: ideal para aprender conceitos básicos de matemática e estatÃstica;
Garrett Grolemund and Hadley Wickham. R for Data Science: this book will teach you how to do data science with R: You’ll learn how to get your data into R, get it into the most useful structure, transform it, visualise it and model it.
Getting Started With Data and dplyr: este curso introduz dois importantes pacotes para a manipulação e visualização de dados, o dplyr e o plotly.
Introduction to the Tidyverse: este curso é uma introdução ao Tidyverse.
Introduction to Julia: são notebooks disponÃveis no juliaBox.
Python para Zumbis: curso gratuito, em português, de introdução ao Python.
Novas (mas nem tanto) tecnologias: como elas irão mudar a nossa vida: Falcon Heavy - SpaceX; Computação cognitiva; Amazon go; Inteligência artificial;Self driving truck, Impressora 3D, Amazon [KIVA] robots; Tesla: o que as empresas estão pensando sobre logÃstica e plantas industriais? Life insurance business + IoT; Internet das Coisas (IoT)
4ª Revolução Industrial
Economia de dados (Data economy): the world’s most valuable resource is no longer oil, but data
O que é Big Data e Data Science?
Qual o real ritmo da mudança? (i) Introdução da evolução da Tecnologia de armazenamento de dados; (ii) Qual é a chance de sua empresa estar viva nos próximos 10 anos? (iii) Charles O’Reilly: How can established companies avoid falling prey to disruption? (iv) Ambidexterity: talvez o único caminho para a sobrevivência; (v) Startup’s como modelo de negócio (e.g. Alphabet); (vi) Qual será o seu emprego daqui a 10 anos?
Você sabe o que é um CDO?!
Qual é a probabilidade de sua profissão ser automatizada?
Big Data Analytics pela ótica de negócios (i) O que é Business Analytics? (ii) Como é feito? (iii) Quem está usando? (iv) Desafios e dicas
DSML and AI projects - Pitfalls you must avoid!! (i) Six pitfalls to avoid when planning data science and machine learning projects (Gartner, 2018); (ii) Six pitfalls to avoid when executing data science and machine learning projects (Gartner, 2018); (iii) Market guide for data science and machine learning service providers (Gartner, 2017);
Conceitos de Big Data (i) Origem; (ii) 7 Vs; (iii) Escalabilidade; (iv) Elasticidade; (v) Cloud computing
Big Data, Big problems (i) Excesso de falsos positivos10 Target.com; (ii) Correlações espúrias (Nature: Detecting influenza epdemics using search engine query data); (iii) Viés amostral (Franklin Roosevelt vs Alf Landon); (iv) Métodos errados para selecionar dados (falácia: with enough data, the numbers speak for themselves)
Cases Reais de Big Data Analytics (i) Walmart e o furacão Sandy; (ii) Por que o governo da Inglaterra está automatizando os seus relatórios? (iii) Netflix
In-house production
Digital transformation: are you ready for exponential change?
Business Analytics: Kaggle+R+Python+Julia+Lua+Numpy+matplotlib - Nosso objetivo é conhecer algumas das principais ferramentas de data science e incentivá-los a explorá-las.
Roadmap para se tornar um cientista de dados; Business Analytics: Human resources analytics e Data Science lab - Nosso objetivo é falar um pouco sobre a profissão de cientista de dados e propor 2 exercÃcios que serão discutidos em sala de aula.
Novas (mas nem tanto) tecnologias; IOT; industrie 4.0; CDO; Advanced Analytics - Nosso objetivo é discutir a velocidade com que as coisas estão mudando e abordar os temas: big data, data science e business analytics.
In-house production (incerteza, coca, SEB, anti-fraude); data science lab; digital transformation - Nosso objetivo é discutir alguns projetos desenvolvidos em casa e comentar sobre os desafios, dificuldades, frustrações e vitórias.
Charles A. O’Reilly; Michael L. Tushman. Lead and Disrupt: How to Solve the Innovator’s Dilemma. 2016
Clayton M. Christensen. The Innovator’s Dilemma: When New Technologies Cause Great Firms to Fail. 2016
Erik Brynjolfsson; Andrew McAfeeMachine. Platform, Crowd: Harnessing Our Digital Future. 2017
Hadley Wickham; Garrett Grolemund. R for Data Science. 2017
Linguagem C: (i) instalar o compilador Dev-C++ (https://sourceforge.net/projects/orwelldevcpp/)
Instalando o R: (i) Vá no site cran.r-project.org; (ii) Faça download do arquivo e clique em executar [para melhor performance instale a versão 64bits]
Instalando o RStudio: (i) Vá no site rstudio.com; (ii) Clique em download; (iii) Escolha a versão free; (iv) Faça o download do Arquivo e clique em executar.
Instalando o Anaconda: (i) Vá no site https://www.anaconda.com/download/; (ii) Faça download do arquivo e clique em executar [para melhor performance instale a versão 64bits]
Instalando o Julia: (i) Vá no site https://julialang.org/downloads/; (ii) Faça download do arquivo e clique em executar [para melhor performance instale a versão 64bits]
Pacotes Python: pandas, numpy, matplotlib, sklearn, scipy, TensorFlow, geopandas, pysal [pacotes já incluÃdos no Anaconda] ++ altair (https://altair-viz.github.io/); seaborn ( http://seaborn.pydata.org/) [esses 2 pacotes precisam ser instalados – execute os comandos abaixo no prompt do Anaconda]
import numpy as np
import matplotlib.pyplot as plt
## No prompt de comando do Anaconda
conda install altair --channel conda-forge
conda install seaborn
Pacotes R
Data Visualization + Dinamic reports
install.packages(c("readxl","plotly", "corrplot", "plotrix", "RColorBrewer",
"VennDiagram", "visNetwork", "treemap", "tm", "wordcloud",
"devtools", "dygraphs", "rmarkdown", "flexdashboard", "shiny",
"shinydashboard", "shinythemes"))
Time series
install.packages(c("BETS","forecast","TSA","tseries","FinTS","ggfortify","fpp2")
Machine learning + Social media
install.packages(c("stringr", "stringi", "dplyr", "topicmodels", "rvest", "twitteR",
"streamR", "ROAuth", "Rfacebook", "MASS", "ISLR", "boot", "glmnet",
"e1071", "tree", "randomForest", "gbm", "caret", "ggplot2"))
Spatial Statistics
install.packages(c("rgdal", "cartography", "RColorBrewer", "plotGoogleMaps", "rworldmap",
"dismo", "RgoogleMaps", "googleVis", "spatstat", "maptools", "splancs",
"fields", "lattice", "spdep", "rgdal", "cartography", "RColorBrewer",
"cartogram", "tmap", "leaflet", "gstat", "tripack"))
Integração com Python
install.packages(c("reticulate"))
Model Thinking Br11 Model Thinking Br
contato@modelthinkingbr.com [cursos in company MTBr]