副标题#e#
在商业和科学上,大数据可能带来的革命性变化。
一、大数据商业革命
大数据是分层次的,包括大数据1.0、2.0和3.0,这里分别做一介绍。
大数据1.0
如果用一个关键词来讲大数据1.0,那就是分析,更深入、更好的分析技术。其实,刚才邬贺铨院士讲了非常多的例子,我这里再补充一些。比较有意思的是医疗方面的大数据,其中讲得比较多的是“量化自我”,它是通过一种非干预的手段,把一些所谓的医疗传感器放到我们的身边,比如我们戴一个腕表、一枚戒指、一个耳塞、一副眼镜等,通过这些设备我们可以了解自己的心跳、血压情况,甚至包括我们体表的健康状况,从而对一些大病(如癫痫等)进行早期预测。同样,如果我们给一个小孩子使用小儿床垫,通过这个床垫上的压力与湿度传感器分析,我们可以很早地判断这个小孩子有没有比较严重的打鼾或者睡姿不正确等问题。因为严重的打鼾容易造成小孩在三、四岁的时候智力发育低于同龄人,现在通过这个床垫的传感器分析就可以及早地发现并加以治疗。针对慢性病人、老年人同样也有一些类似的辅助工具。
关于大数据的深度分析,很重要内容就是个性化的信息推荐。个性化的信息推荐不仅仅是基于用户的相似性这么简单的东西,还有大量比较深入的复杂模型。比如说,就用户看资讯而言,我们怎么样去判断一个用户点开一条八卦资讯后,是继续深挖八卦到死,还是转而浏览另外一个新闻。同样,有的用户登陆淘宝只是逛逛而已,有些用户则是很明确地想要买一些东西,这就需要对用户的意图进行预测,这里面涉及到一些比较难的机器学习技术。
大数据的深入分析可以在很多领域发挥重要作用。比如,Netflix公司是一个线上VCD/DVD租赁公司,它通过分析大量电影电视剧的观看和评价数据,找到他认为最合适的导演、演员班子和内容,利用这些分析结果,它投资并拍摄了美国历史上最成功的电视剧“纸牌屋”,这实际上是Netflix公司推出的第一部影片。目前,我们可以利用机顶盒的数据对同一个电视台的不同节目进行智能排序,使得这些节目能够更好服务不同的观众。我们还可以分析电视节目之间的竞争网络,通过微调播出时间,提高收视率。以上这些都是建立在对大数据深入分析的基础上,所使用的方法比简单的支持向量机、回归分析、决策树等等困难许多,大部分情况下也没有办法把这些分析方法产品化。
大数据2.0
大数据1.0只是一个起步,它强调的仅仅是自身的业务产生的大量数据,并通过更多的深入分析优化自身的业务。实际上,大数据在商业上的精髓不仅仅是深入分析,还在于怎么把自己的数据创造性地用到其它业务上去,或者是把其它外部的数据用到自己的业务中来。这就带来了大数据2.0,它的关键词是“外部性”。刚才邬贺铨院士讲了很多很好的例子,比如,印第安纳大学怎么样预测道琼斯指数,怎么样通过微博、Google的信息来预测股市,淘宝的CPI指数怎么用于评估中国的非刚需消费等等。在这些例子中,微博和淘宝数据的产生最初并不是为了预测道琼斯指数,也不是为了计算中国消费者指数,它可能仅仅是用户在网络上发泄一下自己的情绪,或者是记录淘宝上的销售情况。但是这些数据可以发挥很多人想象不到的“外部”价值,这就是大数据2.0的一个典型特征。
这里我讲一下Zest Finance的例子。它提出的一个口号是“所有的数据都是信用数据”,它通过分析一个用户在互联网上的大量内容,包括删除网页的记录、购买东西的记录、社交关系记录等等,能够快速地做出给你提供多少贷款的决策。不仅决策周期短,成本低,而且放贷后用户拖延还贷的比例比银行业要低35%。
关于大数据的外部应用,很重要的一点就是占领终端。比如,每一台空调的外挂机上都可以放一些传感器,收集温度、湿度、空气中的颗粒物等,这样的空调基本上每几十米就可以设置一个,可以提供比当前我国空气质量监控站覆盖更广泛的信息,可以做全国范围的环保监测网——这样的网络反而是国家难以做到的。再举个例子,一个终端,比如一个智能彩电的终端能做什么?大家可以想到的,似乎可以做一些个性化的节目推荐,或者做一些个性化的广告推送,但事实上远不止于此。一个上千万的智能终端,第一可以做更好的收视率调查,第二它还可以影响广电、电视节目的收视率。比如,在节目推荐时,把浙江卫视放在湖南卫视之前推荐,这样就可以提高浙江卫视的收视率。未来它甚至还可以做终端广告、做内容等等。这些未来终端的拥有者,将会极大地改变人们的生活方式,冲击传统行业。
大数据3.0
大数据3.0是大数据时代到来的最后的一步,也是至关重要的一步。谈论大数据时代的到来,绝不说仅仅几个人或者几家公司能用大数据就标志着大数据时代的到来,应该是每一个科研团队,每一个创业企业都有能在大数据应用中获益。对他们来说,尽管数据量如此庞大,但他们使用起来就像平时的“小数据”一样方便。要做到这一点,一方面需要有更好的IT架构、更好的分析工具,使得普通团队利用大数据成为可能;另一方面,需要政府和业界对于数据的质量、价值、权益、隐私、安全等出台量化的管理措施和方案。当大数据的生态环境形成之后,我们就有可能进一步讨论所谓的大数据平台,并利用这些平台吸引最好的数据和最好的人才。
下面我们介绍四种可能的大数据集成平台。
第一个是能不能在有效地保护隐私和信息监管的情况下建立所谓的数据淘宝,即在符合法律规定的情况,通过这个平台可以自由地上传和下载数据,并实现自由定价等。实际上,在科研数据已经开始这样做了,但其他领域还没有起步。
#p#副标题#e##p#分页标题#e#
第二个是能不能产生数据运营商。数据运营商通过先进的IT架构,提供存储和计算功能,以及一些必要的分析工具和软件。一些聪明的人以数据供应商提供的数据为基础开发相关产品,甚至在数据产品基础上进一步开发更好的数据产品。如果数据产品以下载或者API的形式售卖,那么数据运营商、数据提供者、数据开发者等各方都可以从客户使用数据产品所支付的费用中获得收益。
第三个是数据挖掘挑战的平台,我们希望用通过这样的平台把数据挖掘、大数据分析领域最重要的的挑战性问题集中起来。这样的平台不仅能够集中各行业内具有普适性的问题,还可以集中大部分的人才。现在Kaggle喊得最多的口号就是它拥有全世界上百万的数据科学家和数据工程师的联系方式。这些顶尖级人才所提出的解决方案,又成了这个平台上的工具,这些工具将来还可能进一步开发出一些普适性的工具。因此这样的平台将会成为“问题、人才和工具”集中的平台。
最后一种平台,是把不同垂直行业中具有普适性的问题与解决方案进一步抽象提炼出来,建立垂直行业的大数据研究中心,再和产学研联盟以及产业基金联合起来建立大数据研究院,形成一种“三位一体、互为补充”的大数据产业生态。
如何成为大数据企业
要成为大数据的企业、大数据的个人或者大数据的政府,我们需要做很多。以企业为例,要成为大数据的企业,首先其一切生产经营流程都需要数据化,利用企业社会化平台或者将传感器部署到制造生产过程中,以便把这些数据都记录下来;其次企业自身要具备海量数据的深入分析能力,并制定战略数据的储备计划,其中尤其重要的是外部数据的储备计划。我们经常说,数到用时方恨少,一个大数据的企业,除了用好自己的数据外,更重要的是要清楚自身的哪些业务需要外部数据支撑,要把这些数据存储下来。最后,站在平台的高度,企业要以包容的心态开放一些可以开放的数据,参与一些社会化的挑战和竞赛。
大数据给传统科研带来很多改变。
首先,大数据会带来科学研究范式的转变。以前必须是有了数据与理论后才有后续的解释,而研究科学的最终目的是为了预测和控制。现在不一样了,有了数据就可以直接进行预测和控制。
第二个大的变化,以前社会学、心理学和管理学等领域的实验对象往往是几十个人,最多不过几百个人,其研究方法往往是半定量或者是定性的。现在,通过互联网上可以针对几千万甚至上亿人进行实验,而且是非控制化的实验。
这里我想通过几个例子,从三个层面说明大数据是怎样影响科学的,主要包括:第一,大数据提供了哪些新的视角。第二,大数据具有哪些实际作用。第三,科学是一把双刃剑,大数据的科学研究是否可能伤害到在座的各位。
首先看看大数据提供了哪些新视角,先讲Barabasi小组去年在Scientific Reports上的一个工作。在做演化生物学实验的时候,我们相信一个生物总是希望把自己的基因尽可能地传播出去,但是只有在极低等的生物中能够验证这种猜测——我们不会相信一次刻骨铭心爱情背后的驱动力是繁殖。为了在高等生物层面讨论这个问题,这个研究小组分析了5亿条短信和20亿次通话,通过这些短信与通话中分析谁是你的第一好友,这里的“第一好友”是指你发短信或者通话最多的人。研究发现,一个20岁左右的女性,她的最佳朋友往往是男性,而一个20岁左右的男生的最佳朋友往往是女性,这主要是出于繁殖的考虑,他(她)可能是你的一个恋人。有趣的是,当进一步分析第二好友的时候却发现,男性的第二好友往往也是男性,而女性的第二好友往往是一个女性。但有点不一样的是,当你到了四五十岁的时候,男性第二好友的性别往往看不出来了,而女性的第二好友往往是男性。其中的原因是这样的:当男性到了四五十岁的时候,他的第一好友会变成他的老婆,而且男性结婚后对异性的关注下降得比女性快。而对于他老婆而言,一个女性到了四五十岁时,她的第一好友往往是他的子女,所以第二好友容易是男性,就是他的丈夫。而对于男性来说,他的第二好友往往是他的子女。这个发现可能没有什么实际用处,但是它为我们提供了一种全新的视角:即利用通讯技术研究演化生物学的规律。
社会学有一个非常重要的奠基性理论:社会资本等价于经济资本。换句话说,我们的人脉关系,我们和哪些人联系、联系的紧密程度和多样性如何,从某种程度上讲也是我们拥有的经济资本。但这只是一种理论,虽然是奠基性的理论,没有得到证实。2010年,美国《科学》杂志刊登了一篇文章,通过分析英国99%人口的的通话关系,来量化英国3万多个行政区与其它行政区通话的多样性,这就是这个行政区的社会资本。研究人员对比这些行政区的经济发展指数,发现社会资本和经济资本是强正相关的。这个研究第一次验证了刚才提到的社会学的奠基性理论。但这些研究是没有什么实际作用的,因为你不能通过多打电话提高一个城市或者一个行政区的经济水平。