站长网 交互 分析数据湖的四个最佳实践

分析数据湖的四个最佳实践

数据湖是什么东东? 狄克逊说:有人问数据湖是什么时,我告诉他们,它就是你以前在磁带上拥有的东西。拿来你在磁带上的东西,把它倒入到数据湖,然后开始探索该数据。我们的看法是,只把需要的数据倒入到Hadoop;如果你想结合来自数据湖的信息和客户关系管

 数据湖是什么东东?

 

  狄克逊说:“有人问数据湖是什么时,我告诉他们,它就是你以前在磁带上拥有的东西。拿来你在磁带上的东西,把它倒入到数据湖,然后开始探索该数据。我们的看法是,只把需要的数据倒入到Hadoop;如果你想结合来自数据湖的信息和客户关系管理(CRM)系统里面的信息,我们就进行连接,只有需要时才执行这番数据结合。”

 

  尽管狄克森的初衷并非如此,但这个术语具有更广泛的含义,而且有着更大的希望。人们开始将大数据湖视作通过把所有数据放入到一个超快、易于访问的存储库,解决集成难题的一种方法。

 

  实际上,存储库反而变成了一个缓慢、僵化的数据沼泽。大数据需要特殊的专长来分析数据。使用原始数据得出的结论在数据质量和治理方面发出了危险信号。

 

  尼克·霍德克(Nick Heudecker)是Gartner的IT领导者数据和分析部门的数据管理研究人员,他说:“每个人都想把数据湖视作IT行业的银弹。之前有没有这样的一种银弹?我还在等待。我认为,一旦你跨过了那个发现阶段,就需要做更多工作。就数据湖而言,那同一基础设施有所帮助,但是一旦你使用该数据来回答你生成的问题,就需要更深入地探究专业信息管理世界。”

 

  所以鉴于数据湖现状,你如何利用它们、为贵企业带来最大优势?专家们表示,数据湖有四个关键的最佳实践:

 

  · 了解数据湖的使用场合

 

  · 别忘了现有的数据管理最佳实践,比如确立强大的数据管理

 

  · 知道数据湖的业务理由,因为这将决定合适的架构

 

  · 要注意元数据

 

  1. 了解数据湖的使用场合

 

  想建立一个成功的数据湖,企业需要摈弃这种想法:数据湖让你可以在一个地方收集所有数据。数据湖并非取代企业数据管理系统和实践――至少从大数据的现状来看不是这样,明白这一点同样很重要。

 

  MapR公司的数据和应用程序高级副总裁杰克·诺里斯(Jack Norris)说:“企业组织仍在谈论数据湖,但它们也认识到,不是所有数据湖都一样。某些数量的功能是你所需要的,或者我们听人谈起过数据沼泽,很难让数据流进流出,数据就停滞在那里。”

 

  考虑到数据湖没有按计划那样奏效,它仍然切实可行吗?专家们表示,是的,前提是你得了解其局限性。

本文来自网络,不代表站长网立场,转载请注明出处:https://www.tzzz.com.cn/html/yunying/jiaohu/2021/0627/11855.html

作者: dawei

【声明】:站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。
联系我们

联系我们

0577-28828765

在线咨询: QQ交谈

邮箱: xwei067@foxmail.com

工作时间:周一至周五,9:00-17:30,节假日休息

返回顶部