培训对象:


数据科学与大数据技术专业(代码080910T)

2016年2月,教育部公布新增“数据科学与大数据技术”本科专业

“数据科学与大数据技术”专业(专业代码080910T)强调培养具有多学科交叉能力的大数据人才。该专业重点培养具有以下三方面素质的人才:一是理论性的,主要是对数据科学中模型的理解和运用;二是实践性的,主要是处理实际数据的能力。三是应用性的,主要是利用大数据的方法解决具体行业应用问题的能力。
该专业包括基础课程、核心课程及选修课程三大模块。其中专业基础课程涵盖了数学、统计学、计算机科学等理论知识。专业核心课程侧重数据分析、计算、计算机技术以及大数据应用等方面的内容,包括了《数据科学导引》、《数据采集》及《大数据应用导论》等课程。专业选修课程在专业核心课程的基础上深入学习,包括《深度学习》、《大数据分析的算法》、《云计算与大数据平台》等,同时也在应用方面开设了新兴的行业课程,例如《金融大数据应用》、《健康医疗大数据:理论与应用》、《交通大数据:理论与应用》等。
培养目标:

“数据科学与大数据技术”专业,培养德、智、体、美全面发展,掌握数据科学的基础知识、理论、及技术,包括面向大数据应用的数学、统计,计算机等学科基础知识,数据建模、高效分析与处理, 统计学推断的基本理论、基本方法和基本技能。对自然科学和社会科学等应用领域中大数据的了解,具有较强的专业能力和良好外语运用能力,能胜任数据分析与挖掘算法研究和大数据系统开发的研究型和技术型人才。

大数据技术与应用(代码610215)

2016年9月,教育部公布新增“大数据技术与应用”专科专业

“大数据技术与应用”专业(专业代码610215)强调培养具有大数据实践能力的大数据人才。该专业重点培养具有以下两方面素质的人才:一是工具的掌握,掌握数据采集和数据分析的基本工具;二是数据分析能力,掌握实用数据分析和初步数据建模能力。
该专业包括基础课程、核心课程及选修课程三大模块。其中专业基础部分侧重为语言和专业基础方面的课程,包括《大数据的Python基础》、《Linux系统基础》、《大数据的统计基础》等。专业核心部分涵盖了数据采集、存储与处理方面的内容,包括《数据存储(MySQL)》及《数据清洗》等课程。专业选修部分以大数据分析、开发及应用为重点,开设包括《数据分析导论》、《大数据行业应用导论》、《数据可视化》、《Hadoop大数据平台基础》等课程。
培养目标:

“大数据技术与应用”专业,培养掌握数据科学的基础知识及大数据相关技术,掌握大数据清洗和分析常用工具的使用,具有卓越的实践能力,能胜任数据清洗、数据存储、数据分析与挖掘、大数据系统开发与构建等工作的专业应用型人才。

思考

数据从业人员定位?

  • 后端(数据库,数据清洗)
  • 中端(建模)
  • 前端(Web展示, 可视化)

如何学/教?

  • 初级阶段:
    • 一门主流语言(R/Python) \(\Rightarrow\)
    • 常用统计方法(回归,聚类等) \(\Rightarrow\)
    • 数据可视化(R/python基本图形库与扩展库)\(\Rightarrow\)
  • 中级阶段:
    • 统计计算与编程 \(\Rightarrow\)
    • 高级统计分析(时间序列,变量选择与模型选择/评估,贝叶斯分析) ->
    • 数据挖掘/机器学习
  • 高级阶段:
    • 深度学习 (文本挖掘,自然语言处理,社交网络及图模型,人工智能)\(\Rightarrow\)
    • 大数据与高性能计算:并行计算 -> 分布式计算(Hadoop/Spark) \(\Rightarrow\) Scala, sparkR, Microsoft R \(\Rightarrow\)
    • 大数据平台与开发(javascript, node.js, gpu编程,docker技术)

主要教/学什么?

在校(统计学)学生应该主要掌握:

  1. 数据库技术(熟练MySQL及不同数据的转换)
  2. 一门大数据分析语言(精通能编程)
  3. 大数据常用统计建模方法(熟练并解释)
  4. 大数据常用算法建模方法(思想与使用)
  5. 大数据高性能计算方法(基本)
  6. 大数据分析技术(了解)

培养/考核技能:

  1. R/python语言基础
  2. 统计基础知识
  3. ETL基础
  4. 数据收集(爬虫)
  5. 数据可视化
  6. 自动化报告
  7. R/python编程与开发
  8. 高性能计算
  9. 大数据平台使用与高性能计算


高校大数据课程设置

基础核心课程:

  1. 大数据导论
  2. 统计分析基础
  3. 数据库与数据处理
  4. 编程基础:R/python

大数据分析必修课:

  1. (基于R)数据可视化
  2. (基于R)统计机器学习
  3. (基于R)编程与高性能计算
  4. (基于R)大数据平台使用

大数据分析选修课:

  1. 基于python的大数据统计分析
  2. 贝叶斯分析与应用
  3. 文本数据处理与爬虫技术
  4. 深度学习与应用

众创数萃中级大数据分析师培训大纲


基础培训课程(常年开放)

A-1. 大数据导论(Schubert, 林子雨, 周宁奕, 周扬, 黄志敏, 林祯舜,牟刚)
A-2. 统计分析基础(丁辉,张日权)
A-3. 数据库与数据处理(郞大为,李浩)
A-4. R语言基础(汤银才,张东,练勇强)
A-5. python语言基础(肖凯,靳军)

A-1. 大数据导论

References:

* Data.Science.For.Dummies(2nd Ed)
* [dummies.com](http://www.dummies.com/programming/big-data/data-science/data-science-for-dummies-cheat-sheet/)

  1. 大数据概念

  2. 大数据行业动态

  3. 大数据案例欣赏

  4. 大数据关键技术

  5. 大数据分析知识库

  6. 大数据人才需求分析

A-2. 统计分析基础


M1:一维数据的统计分析

  1. 数据分析与统计思想
  1. 描述性统计分析
  1. 统计推断
  1. 常用分布的统计推断

M2: 二维数据的统计分析

  1. 二维数据的统计推断
  1. 线性回归
  1. 方差分析

A-3. 数据库与数据处理

References:

* 2008. Data Manipulation with R
* Using SQL in R
* 2016. Advanced R - Data Programming and the Cloud
* 2016. Data Wrangling with R

  1. 数据基础
  1. 数据库基础
  1. R语言数据获取(一)
  1. 数据爬虫基础
  1. 基于R数据整理

A-4. R语言基础


M1:R入门

  1. 大数据与数据科学
  1. R快速入门教程
  1. R编辑器与RStudio

M2:R数据集创建与管理

  1. 数据集的创建
  1. 数据管理
  1. R与其他系统交互

M3:R绘图初步

  1. 基本的绘图命令
  1. 一维数据的可视化
  1. 二维数据的可视化

M4:R数据探索与比较分析

  1. 数据的描述性统计分析
  1. 相关性度量
  1. 相关性检验

M5:R统计建模

  1. 回归模型
  1. 广义线性模型
  1. 模型的检验与比较

A-5. Python基础

- Reference

* 2014. Python Data Analysis
* 2014. matplotlib Plotting Cookbook
* 2015. Python Data Science Essentials
* Regression Analysis with Python

中级培训课程(定期开放)

B-1. 数据可视化(谢佳标, 王旭,魏鹏)
B-2. 高级统计分析(丁辉,徐安察,李洪成)
B-3. 贝叶斯分析与应用(徐安察,汤银才,张东)
B-4. 统计机器学习(谢佳标,尹志,王旭)
B-5. 网络爬虫与文本挖掘(尹志,靳军)

B-1. 数据可视化


M1: 静态绘图的提升

  1. R绘图系统
  1. 图形的渲染

M2: 常用绘图系统

  1. lattice绘图系统
  1. ggplot2绘图系统

M3: 交互式绘图

  1. 交互式绘图包
  1. 基于GIS的动态可视化

M4: 开发与应用

  1. shiny基础
  1. shiny高级开发

B-2. 高级统计分析


M1. 时间序列分析

  1. 随机过程与时间序列
    • 时间序列的特征
    • 时间序列的描述性分析
    • 白噪声与平稳性
  2. 平稳时间序列模型
    • AR模型
    • MA模型
    • ARMA模型
  3. 非平稳序列模型
    • ARIMA模型
    • 季节效应
  4. 异方差模型
    • ARCH模型
    • GARCH模型
    • EGARCH模型
    • SV模型

M2. 多元统计分析

  1. 多变量回归
    • 多变量回归分析
    • 协方差分析
  2. 多变量降维
    • 岭回归与Lasso
    • 主成分分析
  3. 多变量分类
    • 分类
    • 判别分析
    • 聚类分析

M3. 重抽样方法

  1. 随机数据的产生
    • 常用随机数据的产生
    • 重要性抽样
  2. 蒙特卡罗方法
    • 蒙特卡罗积分与方差减少技术
    • 自助法
    • jacknife

M4. 最优化方法

  1. 极值问题
    • 极大似然估计
    • 一维最优化问题及其求解
    • 多维最优化问题及其求解
    • Laplace近似
    • EM算法
  2. 其他优化算法
    • 线性规划
    • 遗传算法
    • 图优化

B-3. 贝叶斯分析与应用


M1. 贝叶斯分析入门

  1. 贝叶斯分析概述
    • 先验信息与提取
    • 贝叶斯公式
    • 后验推断
    • 估计
    • 检验
    • 预测
  2. 单参数贝叶斯模型
    • 二项分布: 成功率
    • 正态分布: 均值/方差
    • 指数分布
    • 泊淞分布

M2. 贝叶斯分析提高

  1. 多参数贝叶斯模型
    • 正态分布
    • 多项分布
  2. MCMC方法
    • 贝叶斯计算
    • 抽样方法(复习)
    • M-H算法
    • Gibbs抽样
    • 常用的M-H算法
  3. MCMC软件:
    • BUGS, WinBUGS, OpenBUGS及在R中的实现
    • JAGS与rjags, runjags
    • Stan与rstan

M3. 实用贝叶斯模型

  1. 回归模型
    • 线性模型
    • 最小二乘估计
    • 基于Jeffreys先验分析
    • 基于G-先验分析
  2. 广义线性模型
    • logit模型
    • Probit模型
    • 对数线性模型
  3. 分层贝叶斯模型
    • 分层贝斯模型的构建
    • 正态分布
    • logistic回归模型
  4. 混合模型
    • 有限混合
    • EM解决方法
    • MCMC解决方法
    • 未知混合个体

M4. 贝叶斯方法的应用

  1. 时间序列分析
    • AR模型
    • MA模型
    • ARMA模型
    • 陷马尔可夫模型
  2. Capture-Recapture模型

  3. 贝叶斯网络
    • 有向图
    • 贝叶斯网络

B-4. 统计机器学习


M1:认识数据挖掘

  1. 数据挖掘概述
    • 数据挖掘过程
    • 数据挖掘对象
    • 数据挖掘方法
    • 数据挖掘应用
    • 无监督与有监督学习
  2. 模型评估与选择
    • 分类的性能评价
    • 混淆矩阵
    • 风险图
    • ROC曲线及相关图表(plotroC, pRoC, ROCR)
    • 利用caret包比较ROC曲线
    • 交叉验证
    • K折交叉验证基本原理
    • 利用e1071包完成交叉验证
    • 利用caret包完成交叉验证

M2: 聚类分析

  1. 几类常用的聚类方法
    • K-means
    • K-medoids
    • 系谱聚类
    • 密度聚类
    • 期望最大化聚类
    • 相关R包: cluster
    • 实例:
  2. 隐变量模型

    • 概述
    • 混合模型
    • 隐马尔柯夫模型
    • 聚类分析
    • 实例:

M3: 分类

  1. 判别分析
    • 线性判别分析
    • 朴素贝叶斯分析
    • kNN
    • 相关的R包: caret
    • 实例:
  2. 决策树
    • 树的构建
    • CART
    • C4.5
    • 相关的R包: rpart
    • 实例:
  3. 随机森林
    • 基本原理
    • 相关的R包:
      • randomForest, randomForestSRC, ggRandomForests,
      • gbm, glmnet, ranger
    • 可视化分析
  4. 支持向量机
    • 基本原理
    • 相关的R包
    • 可视化分析
  5. 集成学习
    • Bagging
    • AdaBoost
    • xgboost

B-5. 网络爬虫与文本挖掘

- Reference

* 2014. XML and Web Technologies for Data Sciences with R(BookZZ.org)
* 2015. Automated Data Collection with R

M1. 网络爬虫基础

  1. 技术准备
    • 网络通信基础
    • HTTP协议简介
    • Web开发知识介绍
    • 网站分析知识介绍
  2. 开发环境与语言
    • 开发环境安装与使用(Anaconda套件与PyCharm)
    • Python基础数据结构(元组/列表/字符串/字典)
    • Python基础语法(条件/循环/函数/类/模块)
    • 常用Python库使用案例分享
    • Python技巧与实践分享

M2. 数据爬取与存贮
1. 网络爬虫工具库 - 基础Python爬虫库(urllib/Requests) - 认识正则表达式 - “漂亮”的爬虫库-Beautiful Soup - 静态网页爬取案例分享 - Selenium与“幻影”浏览器- PhantomJS - Ajax和DHTML网站爬取 - 动态网页爬取案例分享 - 利用API进行数据采集

  1. 网络爬虫存储
    • 文件读取与保存
    • 关系数据库存储-MySQL
    • 爬虫配合MySQL存储案例分享
    • 分布式存储-NoSQL数据库
    • 爬虫配合MongoDB存储案例分享
    • HDFS简介

M3. 网络爬虫提升

  1. 分布式爬虫
    • 多线程爬虫
    • 多进程爬虫
    • 爬虫队列设计
    • 集群化爬取
  2. 网络爬虫框架
    • Python网络爬虫框架介绍
    • Scrapy基本使用
    • Scrapy进阶使用
    • 爬虫框架使用案例分享
  3. 网络爬虫突破
    • 模拟登录
    • 常见验证码突破
    • 爬虫代理池
    • 各类网页内容处理
    • 爬取移动端APP技巧
    • 设计健壮的网络爬虫

M4. 文本挖掘

  1. 文本挖掘技术基础
    • 文本挖掘全流程概述
    • 自然语言处理库(NLTK)
    • TextBlob文本处理库介绍
    • 中文分词介绍(jieba)
    • 词云介绍
  2. 文本挖掘技术进阶
    • 文本挖掘预处理技术
    • 文本特征处理
    • 文本聚类
    • 主题模型
    • 基于深度学习的文本挖掘
    • 文本挖掘案例分享

拓展培训课程(不定期开放)

C-1. 数据治理(郞大为,唐力,李浩)
C-2. 深度学习(尹志,魏鹏,王旭)
C-3. R语言编程与开发(谢佳标,王旭)
C-4. 大数据平台技术与应用(尹志,谢佳标, 刘逸铭)
C-5. Python大数据分析(肖凯,李浩)

C-1. 数据治理


C-2. 深度学习

——-≈

M1: 基础知识与准备

  1. 深度学习背景
    • 什么是深度学习
    • 传统机器学习局限性
    • 深度学习反思
  2. 深度学习框架
    • 八大深度学习框架概述
    • tensorflow,caffe环境的准备
  3. 人工神经网络
    • 感知器
    • 激活函数(sigmoid, ReLu等对比)
    • 梯度下降算法
    • 反向传播算法介绍与详细推导

M2: 深度神经网络与应用

  1. 计算机视觉与卷积神经网络
    • 计算机视觉背景
    • 卷积神经网络训练细节(卷积操作和池化操作)
    • 图像检测与分割
    • caffe,MXNet使用
    • 案例(卷积神经网络): 手写数字识别
    • AlexNet,GoogLeNet解读
  2. 自然语言处理与循环神经网络
    • 自然语言处理背景
    • 循环神经网络训练细节
    • 不同语言翻译(Translation)
    • caffe,TensorFlow使用
    • 案例(循环神经网络): 生成手写字符
    • 长短时记忆(LSTM)训练原理

M3. 无监督学习网络结构

  1. 限制性波尔茨曼机
    • 波尔茨曼机网络结构
    • 限制性波尔茨曼机网络结构
    • CD算法
    • 限制性波尔茨曼机协同过滤上的应用
  2. 深度信念网络
    • 贝叶斯网络
      • 表示
      • 推理(精确推理,近似推理)
      • 学习(参数估计与结构学习)
    • 深度信念网络
      • 基本网络结构
      • 参数学习
      • 应用
  3. 自动编码器
    • 自动编码器结构与原理
    • 堆叠自动编码器结构与原理
    • 系数自动编码器结构与原理
  4. 案例(无监督学习):图片数据

C-3. R语言编程与开发

- References:

* 2016. FasteR!_HigheR!_StrongeR!
* 2016. Efficient R programming
* 2015. R High Performance Programming
* 2013. Seamless R and C++ Integration with Rcpp

M1: 编程篇

  1. R编程基础
    • R中的基本数据结构
    • R中的控制语句:for, while, repeat
    • 函数的构建与调用
    • 基本的debugging方法/函数
    • Scoping rules
  2. 提升R的性能
    • R的缺陷与克服
    • 向量化编程/函数
    • apply系列函数:

      apply, lapply, sapply, tapply, mapply, split
    • 其他Apply方式

  3. R性能监控
    • 监控时间: system.time
    • 本地缓存工具memoise
    • 性能监控工具Rprof
    • summaryRprof
    • 性能可视化工具lineprof

M2: 开发篇

  1. R包开发
    • R包的构成
    • R包重新编译与安装
    • Rstudio中开发R包
    • 标准化R包开发流程
    • 案例: R语言天气可视化
    • 案例: 每日中国天气
  2. 基于HTMLWidgets应用与开发

  3. 基于shiny应用与开发

  4. 跨平台通信
    • Rserver与Java
    • Rsession与Java
    • rJava
    • Node.js与R

C-4. 大数据平台技术与应用


  1. Linux操作基础

  2. Hadoop基础
    • Hadoop介绍
    • hadoop集群搭建(centos/unbuntu/linux/mac)
    • HDFS原理
    • HDFS Shell操作实战
    • YARN介绍
  3. Haddop下的常用工具
    • Sqoop
      • Sqoop介绍与安装
      • Sqoop基础
      • Sqoop导入实战
      • Sqoop增量导入
      • Sqoop导出实战
      • Sqoop job
    • Hive
      • Hive架构
      • Hive环境搭建
      • Hive实战
      • Hive工作原理
      • 基于Hive的日志分析
      • 日志分析的ETL自动调度
    • HBase
      • HBase架构
      • HBase安装
      • HBase实战
      • Hive与HBase集成实战
    • kylin
      • kylin架构
      • kylin搭建
      • kylin实战
      • kylin性能调优
    • spark
      • Spark架构
      • Spark工作原理
      • Spark集群搭建
      • Spark开发环境
  4. Rhadoop/scalaR

  5. SparkR
    • Spark SQL
    • Spark Mlib
    • SparkR
    • 实战

C-5. Python大数据分析



众创数萃大数据实战训练营

D-1. 大数据统计分析实战训练营(R/python)(谢佳标,李洪成,张东)
D-2. 大数据分析师实战训练营(R)(李舰,郞大为,练勇强)
D-3. 大数据分析师实战训练营(python)(肖凯,尹志,李浩)
D-4. web可视化工程师实战训练营(周宁奕,刘逸铭)
D-5. 量化金融分析师实战训练营(张家齐,李孟育,靳军)

D-1. 大数据统计分析实战训练营(R/python)


参考:


- Reference:

* 2011. Using R for data management, statistical analysis, and graphics

M1: 数据分析师工具

M2: 收集与清洗数据

M3: 数据的探索性分析

M4: 数据的建模、预测与验证

M5: 数据的相关性探索

M6: 数据的回归分析与优化

M7: 复杂回归分析

M8. 时间序列分析

  1. 时间序列概述
    • 时间序列的特征
    • 时间序列的描述性分析
    • 白噪声与平稳性
  2. 平稳时间序列模型: ARMA模型
  3. 非平稳序列模型:ARIMA模型
  4. 异方差模型: GARCH类模型

D-2. 大数据分析师实战训练营(R)


李老师,毕业于北京大学,浙江大学软件学院兼职教授、华东师范大学硕士研究生导师,台北商业大学业界专业教师,曾任Mango Solutions(全球最大的R技术开发公司) 中国区数据总监,2015上海R语言大会主席,专注于数据科学在行业里的应用。2005年从事R语言相关研究,擅长R语言的工程开发与分析建模,是 Rweibo、Rwordseg、tmcn 等 R 包的作者,著有《数据科学中的R语言》,翻译了《R语言核心技术手册》、《机器学习与R语言》,撰写过大量R语言的基础和高级应用类文章,从事R语言数据挖掘分析培训多年,探索出一套以案例讲解带动理论理解和软件操作熟悉的方法。
  1. 大数据分析
    • 大数据的基本特点
    • 大数据的分析技术
    • 大数据的存储与管理
    • Hadoop、Spark 等工具的应用
  2. R语言应用
    • R 语言统计分析
    • R 语言可视化应用
    • R 语言数据挖掘与机器学习
    • R 语言的高性能运算

M1. R基础

  1. 数据基础与R入门
    • 认识数据
    • 数据分析方法概述
    • 大数据与数据科学概述
    • 常见分析工具概述
    • R漫谈
    • R工作环境介绍
    • Rstudio简介
    • R常用操作
    • R在业界应用案例分享
  2. R语言数据操作与编程基础
    • R基础数据结构
    • 函数操作与函数式编程
    • 数据的读入与写出
    • 文件的操作
    • R与数据库操作
    • 常用函数介绍(数据操作、字符处理、日期处理)
    • 编程与控制语句(条件、循环、apply操作)
    • dplyr与数据处理
    • 案例1:编写一个模拟排队的函数
    • 案例2:制作一个R包
    • 案例3:电商数据的清洗
    • 案例4:网站文本数据的清洗
  3. 统计模型
    • 线性回归与预测
    • 模型诊断
    • 回归扩展(非线性驾照、logistic驾照、lasso)
    • 主成分分析和因子分析
    • 聚类分析和判别分析
    • 多维变量的探索
    • 时间序列分析简介
    • 蒙特卡罗方法简介
    • 案例5:足球比赛数据分析
    • 案例6:销量数据的预测
  4. 数据挖掘与机器学习
    • 无监督学习介绍
    • 关联规则
    • 案例7:零售数据的关联规则挖掘
    • 分类算法: 从logistic回归说起
    • 案例8:信用卡违约预测分析
    • 机器学习结果评估
    • 多重交叉验证
    • 常用分类方法(决策树、随机森林、支持向量基)
    • 案例9:
    • 神经网络与深度学习
    • 案例10:足球比赛数据分析的机器学习
  5. 数据可视化
    • 描述性统计与统计图形介绍
    • R中图形设备与作图方式
    • 常用图形参数介绍
    • ggplot2介绍
    • 动态可视化示例与业界进展
    • 数据分布的研究(直方图、QQ图、热图)
    • 数据关系的探索(散点图与相关分析,箱线图与因子分析,马赛克图与残联表分析)
    • 统计图应用案例及常见误区
    • 案例9:地理数据的可视化
    • shiny介绍
    • 案例10:使用shiny开发一个小型动态分析系统
  6. 现代分析技术的应用
    • 自然语言处理与文本挖掘
    • 案例11:网络舆情的文本挖掘
    • 社交网络分析
    • 案例12:诗人的社会关系
    • 空间数据的展示与地理信息分析
    • 图像分析技术简介
    • 最优化方法与运筹学简介

D-3. 大数据分析师实战训练营(python)


M1. python基础

  1. 数据分析方法概述及相关工具
    • 认识数据
    • 数据分析的步骤和原则(确定/分解/评估/决策)
    • 相关工具概述及对比(excel/spss/R/matlab/python/Java)
  2. python环境和基础语法
    • 安装anaconda套件
    • 基本数据结构(列表/字符串/字典)
    • 基本语法(条件/循环/函数/类/模块)
    • 基础环境linux-shell/IDLE/notebook
    • python与ipython
    • python语言编程的最佳实践经验
    • python在业界的典型应用

M2. 常用工具库

  1. 基础工具库
    • 数值计算 numpy
    • 绘图与可视化 matplotlib与 Chart
    • 数据操作 pandas
    • 高级应用案例分享
  2. 统计分析库
    • 概率和统计分析(statsmodels)
    • 科学计算和最优化(scipy)
    • 线性回归和logistic回归(statsmodels)

M3. python数据挖掘

  1. 数据挖掘初步
    • 数据挖掘与模型
    • 建模流程和步骤
    • 常见数据挖掘算法
    • 特征工程
    • 正则化方法
    • 主成分分析(PCA)
    • 高级应用案例解析
  2. 数据挖掘算法详解
    • 决策树
    • 集成学习
    • 参数调优
    • 感知机
    • 神经网络
    • 深度学习

M4. 数据挖掘案例讲解

  1. titanic数据集
    • 绘图探索: 可视化
    • 特征处理和建模
    • 生存概率预测
  2. MNIST数据集: 数字识别
    • 特征构造
    • 常规机器学习算法和深度学习算法的效果差异
    • 机器学习的结果评估
    • 深度学习的最新进展分享

M5. python爬虫与文本挖掘

  1. Python爬虫
    • 数据采集(HTML解析,API使用)
    • 存储数据(MySQL)
    • 基础爬虫库(urllib,request)
    • 认识正则表达式(re模块)
    • 漂亮的爬虫库(BeautifulSoup)
    • 方便的现成框架(Scrapy)
  2. 文本挖掘技术基础
    • 文本挖掘全流程概述
    • 自然语言处理库(NLTK)
    • TextBlob文本处理库介绍
    • 中文分词介绍(jieba)
    • 词云介绍(wordcloud)
  3. 文本挖掘技术进阶
    • 文本挖掘预处理技术
    • 文本特征处理
    • 文本聚类
    • 主题模型
    • 基于深度学习的文本挖掘
    • 文本挖掘案例分享

M6. 现代分析技术 - 社交网络分析 - 空间数据的展示与地理信息分析 - 图像分析技术简介

D-4. web可视化工程师实战训练营

参考: 
- 可视化工程师修炼手册:跟着我爬虫+数据库+可视化八个快动作, 大数据文摘,2017-06-04

在大数据时代,最为火爆的技术型岗位当属数据分析师(科学家)、算法工程师和全栈(前端)工程师。全栈(前端)工程师站在了时代的风口,他们既精通前端又能胜任后端(及移动端),极大减少企业沟通成本。现在的调查分析表明,他们的就业趋向更好、需求更多,薪资也更胜一筹。现在web开发群体5成以上为全栈开发者,精通前后端的全栈工程师成了IT界新一代宠儿。然而其中懂得数据科学中数据动态可视化工程师成为大数据产业链中的稀缺人才。

本课程由五大模板组成,逐步展示前后端web技术栈,
通过对爬虫、数据库、数据清洗、可视化、部署上线等技术链路的技能学习和对地理可视化、graph可视化等专类可视化的实操经验积累,让学员学会在互联网+时代如何从容地获取数据、分析数据、通过动态可视化技术展示数据蕴含的价值。

本课程是大数据分析可视化实战训练营,学员将在课程案例中学习与体验,在随堂作业与结业项目中进行网站数据爬取、存储、可视化,全面复习并实践教授的技能,真正做到学以致用!
  1. 全面理解前后端web技术栈
  2. 全程学习爬虫、数据库、数据清洗、可视化、部署上线等技术链路
  3. 实操体验地理可视化、graph可视化等专门工具

M1: Web数据可视化概览

  1. 可视化的纵与横
  1. 服务器与web基础

M2: 爬虫与数据处理

  1. Node.js爬虫技术
  1. 关系型数据库Postgres SQL

M3:图表可视化

  1. D3.js图表基础

    • 使用D3.js开发3种基础图表
    • 开发实时更新的动态基础图表
    • 作业:自身图表库的构建、
    • 基于echart的可视化
    • 基于d3的通用图表可视化
  2. D3.js图表进阶

M4: webGIS数据可视化

M5: 图可视化(graph layout)

D-5. 量化金融分析师实战训练营