【数字智能三篇】之一: 一页纸说清楚“什么是大数据”

按:【数字智能三篇】 目前“大数据”、“推荐系统”、“深度学习”是数字智能领域的热点研究方向,相关的书籍也很火热,比如“大数据”仅这两年就出版了很多本,让一般人看的眼花缭乱。

本系列共分三篇,力求仅以一页纸的篇幅来系统完整地介绍以上这三个方向,深入浅出。以下内容摘自2014年新出版的《3D打印:三维智能数字化创造》一书,有删节,完整内容及目录详见链接:http://www.sigvc.org/why/book/3dp/index.htm

-----------------------

“大数据”(Big Data)是“数据化”趋势下的必然产物。数据化带来了两个重大的变化。一是数据量的爆炸性剧增,最近几年所产生的数据量等同于2010年以前整个人类文明产生的数据量总和。以前网上的3D模型非常少,而目前仅Shapeways这一个网站上的3D模型,就已突破了100万个。二是数据来源的多样化以及异构性,比如介绍某款手机产品的网页,既有文本、语音,还有视频、图像、3D模型等,从各个方面展示了该产品的特征,这种多源性也有助于滤除数据噪声、交叉验证。数据间是否具有结构性和关联性,是“大数据”与“大规模数据”的重要差别;“大数据”这一概念中包含着对数据对象的处理行为,即快速挖掘和展现其中蕴含着的有价值信息。

大数据的特点可总结为4个“V”——Volume(体量巨大)、Variety(类型多样)、Value(价值密度低,商业价值高)、Velocity(处理速度快)。牛津大学互联网研究所维克托·迈尔·舍恩伯格教授指出,“大数据”所代表的是当今网络社会所独有的一种新型能力──通过对海量数据进行分析,来获得有巨大价值的产品和服务或深刻的洞见。例如,你在网上买书时,网站根据你之前的购买记录快速推测你的阅读类型(比如你喜欢魔幻武侠小说),然后把当前最热门的3部魔幻武侠小说显示在网页最醒目的位置,以便激发你的购买欲。因此,可利用大数据对客户群进行细分,通过分析其既往行为,推测他们潜在的意图、习惯和计划,以实现精准营销。

大数据时代会颠覆许多传统思维,在哲学层面体现为“经验主义”比“理性主义”更多地被人们所采用。以前人们总在探寻问题的因果:事物为什么会这样?但现在,人们更关心结论。比如,从大量数据分析得出冬天第一场雪过后大白菜价格会涨大概两倍,那么商家会更乐意利用这个结论来关注天气预报并伺机囤积大白菜,而不会像专家那样坐在一起讨论为什么第一场冬雪后大白菜会涨价、为什么是涨两倍而不是涨3.2倍。大数据也意味着对效率的追求,而不是去过分追求数值上的精确。

专家的价值在于因果分析,而大数据却放弃对因果关系(Causality)的追求,仅关注相关关系(Correlation)。也就是说,只需要知道“是什么”,而不需要知道“为什么”。这种变化已经远远突破了技术层面,将对人类认识世界的哲学观产生重大影响。因果关系只是相关关系中特殊的一种,大数据告诉我们很多情况下只要关注相关关系以做出预测就够了。另一种可能的解释是,数据是不会骗人的,而人(即使是专家)的见解往往是主观和偏见的。当然,我们并不是说逻辑性的因果关系不重要,而是我们一开始往往会迷失在纷乱繁杂的数据海洋中、毫无头绪,所以这时就可首先想办法获得统计意义上的相关关系,然后再考虑从中提取出逻辑性的因果关系。这其实很好理解:当我们对数据无法直接获得可解释性时,那就试着先观察出这些数据的统计规律性(“是什么”),然后再针对这些规律进行解释(“为什么”)。

大数据还有一个巨大的优势是,可利用通用的的统计学模型代替各种各样的专家系统,“以不变应万变”。例如,基于大数据(包罗万象的语料数据),Google的翻译算法可统一实现几十种语言(英语、汉语、法语、韩语、拉丁语等等)的互译,而无须针对每种语言定制专门的语法专家系统。IBM 公司的 Fred Jelinek院士是利用大数据进行统计语音识别与合成的著名学者,他曾说过一句著名的论点:“每当我解雇一个语言学家,语音识别系统的性能就会改善一些”。

大数据是网络社会在掌握海量数据收集、存储和处理技术基础上所产生的一种进行判断和预测的能力。专家往往希望归纳出一个模型,而在大数据时代,数据直接自己“说话”,变得比模型更重要,因为再复杂的模型也无法包罗万象。而当数据“大”(多)到能对几乎整个样本空间进行充分覆盖时,就可以减弱对理论和模型的依赖,不再需要通过模型去经历“从特殊归纳(Induce)到一般,再从一般演绎(Deduce)到特殊”的传统流程,而是利用大数据去直接实现“从特殊到特殊”的判断和预测(这种直接的方式也被称为转导,Transduce),因为大数据中已经包含了足够多的“特殊”样本以供参考。换言之,此时数据本身便是模型,也即大数据可实现全样而非抽样(现实中要获得代表真实情况的抽样非常难,比如可能会因为抽样不够全面而遭遇“黑天鹅事件”)。

大数据将给整个社会带来从生活到思维上革命性的变化:人们所接受的服务,将以数字化和个性化的方式呈现,借助3D打印技术和智能数字化,零售业和医疗业也将实现数字化和个性化的服务。

目前,Hadoop是最为流行的大数据处理平台,是一个开源的、可运行于大规模集群上的分布式并行编程框架,由分布式文件系统(如HDFS)、数据库(如HBase,属于NoSQL类型的数据库)、数据处理模块(如分布式编程模型MapReduce)等组成。借助于Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于大规模集群上,从而完成大数据的计算。

http://blog.sciencenet.cn/blog-4099-781642.html 

 

 

【数字智能三篇】之二: 一页纸说清楚“什么是推荐系统?”

【数字智能三篇】之三: 一页纸说清楚“什么是深度学习?”

 

欢迎加入我爱机器学习QQ13群:550972653

微信扫一扫,关注我爱机器学习公众号

微博:我爱机器学习

发表评论

电子邮件地址不会被公开。 必填项已用*标注