站长网 大数据 分析:大数据基础架构建设

分析:大数据基础架构建设

副标题#e# 2014年7月13日,由北京大学信息化与信息管理研究中心、北京大学CIO班教务办公室和中国新一代IT产业推进联盟主办,北达软协办,CIO时代网承办的第三届中国大数据应用论坛在北京大学隆重举行,来自业界的相关专家学者、CIO、媒体朋友等150多人参与

副标题#e#

    2014年7月13日,由北京大学信息化与信息管理研究中心、北京大学CIO班教务办公室和中国新一代IT产业推进联盟主办,北达软协办,CIO时代网承办的“第三届中国大数据应用论坛”在北京大学隆重举行,来自业界的相关专家学者、CIO、媒体朋友等150多人参与了此次的大数据盛会。

 

 

    H3C研发系统部总工程师孙晓军之后的论坛上发表了题为《大数据基础架构建设》的主题演讲,整个演讲分为三大部分:大数据应用价值思考、大数据基础架构建设、大数据基础架构的未来。孙晓军提到:大数据应用促成信息革命由质变到量变,大数据应用是人类社会下一个创新、竞争和生产力的前沿。而大数据应用的本质是内生的智能。目前,大数据市场尚处于初级阶段,但快速增长。孙晓军重点谈到:大数据应用成功需要天时、地利、人和。传统数据分析系统向大数据分析转变面临众多的挑战。孙晓军先生的演讲条理清晰,层层递进,为嘉宾们深刻阐述了大数据时代的基础架构建设。以下为演讲实录:

 

\

 

    H3C研发系统部总工程师 孙晓军

 

    大家下午好!我们H3C公司主要定位于IT系统基础架构,为了更好支撑大数据应用开发,我们公司也做了一些工作,我们虽然不做大数据应用,但是要理解以及更好提供技术支撑大数据应用,给大数据带来更好的价值。

 

 

    我今天讲的题目是:基础架构先行,支撑应用成功,应用成功是大数据应用成功。大数据应用成功要有基础架构,没有基础架构大数据应用成功概率很小。我分三部分,第一部分是大数据价值思考,这部分主要讲中国大数据应该是什么样的,在发展初期各个行业各个不同的领域里面,大数据都有不同理解。第二部分是大数据建设,第三部分是大数据基础架构未来应该什么样。

 

 

    说起大数据市场或者大数据价值,我们大数据应用有个价值观,人类社会发展几经历农业革命、工业革命,现在是信息革命,信息革命目前阶段来看仅仅是工业革命一个后革命,工业革命在新革命前期里的一种延续,现在的信息革命仅仅是一个量变过程,没有到质变的程度。

 

 

    工业革命带给我们最大的好处喝利益是什么?很可能就是机械应用,机械应用还有大规模的标准化生产,这样造成我们每一件产品价值成本下降,使我们在座每个人能享受到成果,比如汽车。现在大家很多人开车过来,但是当年汽车刚刚开始时候都用手工敲出来,用的都是各国的王宫贵族,为什么他们敲,而我们只能标准化,就是成本问题。

 

 

    我们现在享受工业化带给我们文明的同时,我们也在被压抑,压抑什么?就是个性化。比如说,现在我们去商店买西服肯定按号买,大家有疑问,每个人不是按号长的,这样就说明我们只能去适应这个号的体系,为什么有号?因为大规模生产,有各种各样的。在麻省,加州理工大学开私人服务可以吗?但是大数据时代很可能实现这样的业务,大数据时代使我们被压抑的一些个性化需求得以实现,大数据可以使我们的一些个性化需求成为一个市场。比如说UPS车辆维修,这个公司肯定是卡车,卡车肯定不能抛锚,因为会对公司各方面造成损失,这样大家就想到定期维修,比如这个车三年一定换轮胎,一年一定换机油,这样才能维护车正常运行。但是大家没有想到这个车运行环境不一样,有的在中东大沙漠运行,有的在加拿大高级公路上运行,他们的运行环境不一样,车的实际的损耗水平一定不一样。为了达到我们100%不抛锚目标,我们选最短的目标,造成大量浪费,轮胎不用的也换掉。UPS建了这样的系统,车的各个重要部门收集数据,在这里挖掘一些故障模型,实时收集车数据,一旦某一个车,针对某一个车模式出现了,卸货后进厂就维修。

 

 

    这次马航事件,飞机什么时候掉下来的?大家没有想到为什么和卫星交互,不是每个航空公司都有,而是一定装了发动机,在出厂时候有N多传感器,通过卫星实时数据中心,进行实时的检测。这检测是收费的,马航没有这样的服务。

 

 

    再举一个例子,互联网精准营销,现在说大数据营销,大家知道互联网上精准营销。前段时间北戴河比较潮,我网上输入吸湿器产品,结果以后新浪总有吸湿器广告跟着我。同样是新浪网页,在座和我收到的广告不一样,所以大家注意,输入敏感词进去很有可能被看出来。

 

 

    有这样一个公司,像以前广告公司组织,在各个省我们的电信局的省,互联网入口处把所有的进入互联网数据进入系统里,进行各种各样大数据分析,然后对这个人关注。他把我们上网认证的都提出来,所以听到这个字,整个是谁他知道,就根据这个,张三李四不知道,但是叫ABCD,军事爱好者打标签,时尚打标签。把我们通过大数据方式给每个人画像,画像后开始招商,很多军事杂志模型到我这做,时尚各种品牌做,广告招商,招商后到各个网站买广告位,外面路边大牌子也是广告位,买各个主流网站右侧,买来运行模式可以开始。下次上新浪网,他看A来了,以前喜欢军事怎么办?他一查军事有很多,广告价最高给我,世界军事杂志,我一上新浪网站,右边是钩子以前空的,正好把广告拿来看。我看新浪新闻右边是军事广告。这个营销和我们以前的不一样,我们以前广告干什么?我形容是机枪扫射,电视上都管,子弹很费的。我的广告商希望我的每一次广告都达到最高效果。

 

 

    阿里本身还是一个金融公司,这个金融公司每天达到100万,这个数据坏帐率,每天营业额是招商银行非常羡慕的,为什么?仅仅是卖鞋袜子,就搞个自由市场,他也是实现个性化。小微。银行贷款最大一个问题是信用问题,我说信用贷款,比如我在大企业某重点项目来1000亿,这个好办,我花几百万做信誉评价可以得到结果,但是我明天要2千,很大单子,我去银行说借2千,说不行。因为我的信用评价不值这个数。对于小型个性化贷款是没有办法满足,怎么办?阿里知道你在自由市场信用,怎么卖怎么买,他都知道。大家知道贷款额度越低,价值越高,利息越高,阿里就有非常高利息收入。大数据应用在人类社会角度是使我们进入新阶段,低成本个性化。未来这里有专家,有企业的。

 

 

[page]    下面讲大数据是人类社会下一个创新竞争和生产力的前沿,我们关注这些具体的一些事很有意思。

 

 

#p#副标题#e##p#分页标题#e#

    第一个全社会都关注大数据,如果大家对云有了解的话可能知道,云忽悠到今天有5、6年时间。但是刚开始忽悠云时候大家想谁在忽悠?全是业内人,很少业外人,云是我自己的革命,我们自己忽悠自己,忽悠别人买我们产品买我们设备。大数据不一样,前一些天看到“湘鄂情”转大数据,效益不好,这个有点靠谱。最近听说一个做饲料的也大数据,说明什么问题?说明全社会各个角度,大数据不是自由忽悠,搞IT的业内忽悠,而是全社会关注大数据有意思。

 

 

    大数据上升到国家层面,首先是美国,美国人很少被忽悠,但是美国大数据上升到国家层面,他们有政策,总统签字,预算不大,几亿美金,投入非常多。这是国家战略,现在至少美国总统认为大数据应该搞。第二是我们国家,我们国家大数据没出现国家级的战略,但是各个省市很多。

 

 

    大数据应用本质是什么?什么是大数据应用?我们现在好多产品,大数据应用很简单,业内对人工智能了解,开始雄心勃勃,计算机出来说把人脑子工作原理弄清楚模拟,万一人以后被机器人控制怎么办,人工智能科学家开始非常自豪,说怎么样没问题。其实经过几十年发展,我们终于发现机器代替不了人,主要问题在哪?在于我们搞不清楚人类大脑到底怎么运行。所以刚开始通过模拟大脑推理逻辑方式得到人工智能不现实。那种方式推下来以后,中间经过很多,最后得出来就是一些专家系统,比如中医的,把老中医这套东西所谓知识,知识表达方式固化到计算机里,下次把脉一输,甚至有自动摸脉的,这是外生的。我们现在系统里很少内生的,外部的告诉我这个脉怎么回事,一旦摸到没有的没办法了。内生智能针对不确定的因素。

 

 

    大数据年代的知识架构,其实都是以前的东西,大数据现在的机器学习什么东西都是几十年前有的,大数据成为主流。为什么?我们现在这个年代,现在大量数据,以前获得数据很困难,现在上网,每天工作,咱们每天生活在数字空间,以前没有。我们数据无穷无尽。我们以前人工智能是因果式的,我们现在搞不清楚,没有办法推理,现在用概率推理。概率推理有50、60年,现在还这样。概率推理需要大量数据,有人做过人工智能,每个维度数据很少,大数据弥补,大数据弥补一点,使我们可能产生内生智能。大家看大数据应用,有没有自己内生的应用,我们以前的系统都可以,加入大数据算法分析东西就转化出来,这是大数据应用。现在大数据应用好多,这个不重要。我们关注真正的真金白银是有没有内生的智能。

 

 

    有了内生智能典型大数据应用,大概分三种,主要还原事实,大数据可以还原,大数据面前没有谎言。如果我骗在座各位,我可能行,这个房间里这个封闭范围内可以,但是我们生活在网络上空间里,我骗得了100人,骗不了1千,最终骗不了整个互联网人,在大数据环境撒谎一定被揪出来。股市很多公司为了做事情,以前行,以前不知道,大数据时代会发现操作迹象。

 

 

    大数据核心高维数据分析,大数据思维什么概念?让数据说话。以前统计数据一定因果关系认证以后用,为什么?我们想象事实是兔子乱跑,我们以前传统方法用大量天才科学家或者天才人物因果思路,我想编笼子抓兔子,以前方式需要天才思路,不是每个人可以。而大数据我们可以想象这个兔子我们用一个笼子,这个笼子是数据各个维度做的,如果这个数据维度多,笼子足够密,这个兔子就跑不出去,就是真理事实就在笼子里,不用再去因果关系认证。这是大数据整个思路。这产生一个问题高维数据分析,以前二维说跑就跑,现在千维万维,我把兔子放笼子中间。我不用因果关系论,只要在大数据笼住就这么回事。

 

 

    这样简单的想法对我们IT整个造成非常大困惑,存储、计算能力还有各种各样标准,大家都理解。大数据核心是数据集成。大数据大不重要,而是维度最重要。维度要足够多,维度数据有一定密集程度,大数据未来考虑,不是收集几亿数据,要有几千维度几万维度,每个维度有1千万数据可以是大数据,对于我们计算存储管理都产生非常大问题。大数据技术是什么?所谓大数据技术就是解决这些东西。

 

 

    大数据系统怎么做?我刚才讲必须建大数据基础架构。大数据应用,我从应用角度看,一定要天时地利人和三方面,比如人这个方面,人是最容易忽视的,我们建很多大数据,应用核心是集成,是跨界集成,也就是说以前一个公安人员可能对公安内部了解,但是对医疗方面的标准懂不懂,如果不懂很可能大数据不这么完美,因为抓兔子要很多维度,这些维度笼子栅栏一定是全人类的维度,一定要有这么一个人,这个人高度很高,我们现在企业里做数据分析有这个问题,只为部门服务,为企业整体服务的很少,有自己数据分析人员服务。这样产生不了大数据应用,现在企业应用要有这种人,从企业角度和高度思考问题。

 

 

    第二对我企业各个部门的运作情况总结,不能对研发的,对市场进行了解,对制造系统没有什么了解,这样搞不了大数据。所以人很重要。最重要是跨界,还有从某一个高度去思考问题这样的角度,这两个特征比较合适。大数据最大拦路虎是数据治理,大数据是集成,由于化学反应放到一起产生爆炸性,敏感度增加,怎么脱敏,大数据各种各样标准,治理这是很大问题。还有大数据最关键支撑,工具和方法,工具和方法加一起是大数据基础架构。

本文来自网络,不代表站长网立场,转载请注明出处:https://www.tzzz.com.cn/html/shuju/2021/0818/15944.html

作者: dawei

【声明】:站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。
联系我们

联系我们

0577-28828765

在线咨询: QQ交谈

邮箱: xwei067@foxmail.com

工作时间:周一至周五,9:00-17:30,节假日休息

返回顶部