引子
什么是数据科学?
数据学(Dataology)和数据科学(DataScience)是关于数据的科学,定义为研究探索Cyberspace中数据界奥秘的理论、方法和技术。主要有两个内涵:一个是研究数据本身;另一个是为自然科学和社会科学研究提供一种新方法,称为科学研究的数据方法。(百度百科)
Data science is an interdisciplinary field about processes and systems to extract knowledge or insights from data in various forms, either structured or unstructured, which is a continuation of some of the data analysis fields such as statistics, data mining, and predictive analytics, similar to Knowledge Discovery in Databases (KDD).(wikipedia)
Data science refers to an emergin area of work concerned with the collection,preperation,analysis,visualization,management,and preservation of large collec of information。(kaggle)
研究数据科学,一方面要如极客刻苦钻研,一方面要想统计学家那样拥有完美的理论。数据科学是一门关于数据的工程,他需要同时具备理论基础和工程经验,需要掌握各种工具和方法。(quora)
2010 Drew Conway
数据科学的功用是什么?
使用机器学习和数据挖掘模型为产品提供技术支持:搜索吗,推荐,语音,图像识别,社交体验,可穿戴设备,无人驾驶,VR,AR等新兴产品
基于行业和平台理解,为企业或者政府提供战略决策支持:舆情监控,市场划分,用户挖掘,行业预测(互联网,医药,生物,影音,政策研究,公共服务,天气,军事等)
数据科学家是什么?
一切以数据科学为工作内容的科学家!(数据科学爱好者——数据科学从业者——数据科学家)
2008年,Linkedin的Dj Patil和Facebook的Hammerbacher定义了数据科学家的称谓,并出现在招聘信息里。
统计学家
数据挖掘工程师(研究员)
数据分析工程师(研究员)
机器学习工程师(研究员)
算法工程师(研究员)
BI工程师(研究员)
数据科学过程
from wikipedia
数据获取:日志,统计报表,爬虫
数据处理:数据清理,数据补全,数据归一化
数据建模:基于统计特征,基于机器学习
数据产品(分析):构建功能系统(面向产品),构建监控系统(面向产品),实务分析(面向战略)
数据报告:整体评估,分项分析,风险预测,模板选取
数据管理:数据源调配, 人员分配, 工期排布
数据科学的几个问题
熟练掌握数据类型,常用函数
熟练掌握常用包(库):dplyr,ggplot,stringr, tm,numpy,scipy,matplotlib, pandas,scikit等
完成全周期的数据科学任务
经常获取新知识,包括实务知识,工具知识,算法知识等
掌握简单绘图包ggplot, matplotlib
数据科学家秘籍
数据科学语言之战
Python vs R (点击这里 )
R致力于提供更好的,对用户友好的数据分析、统计分析和绘图模型;而Python则强调生产效率和代码的可读性
R主要用于学术和研究领域。Python的使用者,是程序员, 开发者。
R和Python都得到大量的社区支持。 此外, R还可以从研究人员、数据科学家、统计学家和数量分析专家那里得到更多的支持;而Python则从开发者和程序员那里得到的支持。
开始学习R时有一个陡峭的学习曲线。由于Python看重可读性和易用性,使得它的学习曲线相对比较低并且平缓。
R中用户可以通过rPython包运行Python代码。而在Python中也可以使用RPy2包运行R代码。
数据科学名人
点击这里
数据科学R语言实例1
课题:优酷作弊行为识别和线上压制
数据获取:db_youku_user, db_youku_video, db_youku_videoprofile, weblog.l_web_ycomvvlog_rcfile
数据处理:db_youku_user和db_youku_video可能同步不一致,播放时长奇高;
数据建模:贝叶斯分类器生成seo常用词表,决策树模型生成决策规则
数据产品:在hadoop平台创建定时任务,将生成数据导入视频/用户黑库,使用透明化系统监控每日生成数据量;
数据报告:识别作弊账户和视频数量,模型预测准确率,线上前后效果变化,kpi变动等
数据管理:easy!
SEO常用词表:
马云 马化腾 李彦宏 创业 成功 陈安之 励志 王健林 刘强东 雷军 乔布斯 罗永浩 张朝阳 周鸿祎 比尔盖茨 赵本山 宋小宝 y蛋 白百何 羽泉 黄晓明 郭德纲 岳云鹏 成龙 刘德华 张丽芳 张灵甫 刘嘉玲 梁朝伟 郭富城 曾仕强 梁凯恩 俞凌雄 翟鸿燊 安利 无限极 雅芳 天狮 玫琳凯 隆力奇 赵丽颖 鹿晗 刘亦菲 李易峰 刘诗诗 杜云生 徐鹤宁 李嘉诚 牛根生 杨元庆 李开复 任正非 唐骏 丁磊 史玉柱 俞敏洪
决策树分裂节点:
视频热词堆砌程度,视频vv,视频播放完成比,自频道名称,自频道粉丝,自频道vv等。
每日作弊账户累加500左右,现在11万,作弊视频约5万。
生效前:
生效后:
数据科学R语言实例2
课题:科比为什么是伟大的球员?
数据获取:网站stat-nba,获取科比职业生涯赛季数据
数据处理:得分和犯规采用不同的归一化函数
数据建模:基于统计特征,平均数值
数据分析:得分,出场时长,命中率等统计分布
数据报告:数值展示,趋势展示
数据管理:easy!
亲密战友(13年,9年,8年)
使用apriori 频繁项集识别算法。
优酷视频科比词云
数据科学R语言私货
R语言的常用能力
数据爬虫(Rcurl包)
数据分析
算法实验及实现
数据可视化(静态pdf,动态html,ppt)
工具开发(shiny)
结合Hadoop(安装Rhive,rhdfs,rmr,或者使用hadoop streaming技术)
R常用包: base,ggplot2,stringr,dplyr,rmarkdown,htmlwidget,rCharts,devtools,shiny和各种算法包。
InVaML
书籍 《数据科学实战》(人民邮电),《R for data science》(under print),《数据挖掘》(韩家伟,人民邮电),《R语言实战》(人民邮电),《R语言统计入门》(人民邮电),《R语言编程艺术》(机械工业),《hive编程指南》(人民邮电)
MOOC 机器学习 , 数据科学
论坛 datacamp, dataguru, stackoverflow, 统计之都
竞赛 kaggle, kdd cup,netflix prize
数据科学教程内容
Doing Data Science
Y
Y
Y
N
Y
Y
Y
N
N
R for Data Science
Y
N
Y
N
Y
N
N
Y
N
Practical Data Science with R
Y
Y
Y
N
Y
Y
N
Y
N
Agile Data Science
N
N
N
Y
Y
N
Y
Y
N
Data Science from Scratch
Y
N
Y
N
Y
N
Y
Y
Y
推荐1和5!
数据可视化
总结
数据科学是以数据为基础,从统计学的角度出发,结合业务知识,研究科学的数据获取,数据处理,数据建模和数据管理手段,以期为产品提供技术支持,或者为决策提供量化依据,并使用可视化的方法来监控或者评估数据产品和数据决策的过程。
数据科学过程,就是把数据应用到生产环境中,形成产品或者决策的全周期过程。
数据科学家是具备优秀数据科学素养和深度行业理解的从业者。
By Bo Wei from YoukuTudou