引子


什么是数据科学?

2010 Drew Conway


数据科学的功用是什么?


数据科学家是什么?

一切以数据科学为工作内容的科学家!(数据科学爱好者——数据科学从业者——数据科学家)

2008年,Linkedin的Dj Patil和Facebook的Hammerbacher定义了数据科学家的称谓,并出现在招聘信息里。


数据科学过程

from wikipedia from wikipedia


数据科学的几个问题

  1. 熟练掌握数据类型,常用函数
  2. 熟练掌握常用包(库):dplyr,ggplot,stringr, tm,numpy,scipy,matplotlib, pandas,scikit等
  3. 完成全周期的数据科学任务
  4. 经常获取新知识,包括实务知识,工具知识,算法知识等

掌握简单绘图包ggplot, matplotlib


数据科学家秘籍


数据科学语言之战

Python vs R (点击这里)


数据科学名人

点击这里


数据科学R语言实例1

课题:优酷作弊行为识别和线上压制

SEO常用词表:

马云  马化腾 李彦宏 创业  成功  陈安之 励志 王健林  刘强东 雷军  乔布斯 罗永浩 张朝阳 周鸿祎 比尔盖茨 赵本山 宋小宝    y蛋   白百何    羽泉 黄晓明 郭德纲 岳云鹏  成龙  刘德华 张丽芳  张灵甫 刘嘉玲    梁朝伟 郭富城 曾仕强 梁凯恩 俞凌雄 翟鸿燊 安利  无限极 雅芳  天狮  玫琳凯 隆力奇 赵丽颖 鹿晗  刘亦菲 李易峰 刘诗诗 杜云生 徐鹤宁 李嘉诚 牛根生 杨元庆 李开复 任正非  唐骏 丁磊  史玉柱 俞敏洪 

决策树分裂节点:

视频热词堆砌程度,视频vv,视频播放完成比,自频道名称,自频道粉丝,自频道vv等。

每日作弊账户累加500左右,现在11万,作弊视频约5万。

生效前:

生效后:


数据科学R语言实例2

课题:科比为什么是伟大的球员?

亲密战友(13年,9年,8年)

使用apriori 频繁项集识别算法。

优酷视频科比词云


数据科学R语言私货

R语言的常用能力

R常用包: base,ggplot2,stringr,dplyr,rmarkdown,htmlwidget,rCharts,devtools,shiny和各种算法包。

InVaML


数据科学教程内容

教程 概念 流程 算法 数据结构 可视化 行业实例 工程 语言 统计基础
Doing Data Science Y Y Y N Y Y Y N N
R for Data Science Y N Y N Y N N Y N
Practical Data Science with R Y Y Y N Y Y N Y N
Agile Data Science N N N Y Y N Y Y N
Data Science from Scratch Y N Y N Y N Y Y Y

推荐1和5!


数据可视化


总结


By Bo Wei from YoukuTudou