分布式计算开源框架Hadoop入门分析

Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。 在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concur

Hadoop关于处理大量小文件的问题和解决计划

小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用Hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。 任何一个文件,目录和block,在HDFS中都会被

CIO怎样利用Hadoop降低大数据分析成本

大数据将成为代替云计算的新一代热门话题。这是必然的结果:随着时间的推移,企业产生的数据量已经越来越大了,这些数据包括客户购买偏好趋势、网站访问和习惯、客户审查数据等等;那怎样才能把这么大的数据集整理成综合形式呢?传统的商业智能(BI)工具

云上运行 Hadoop 会面临哪些难题

在云上运行Hadoop,很多人担心性能。因为一提到虚拟化就会有人想到有成本,往往得出有偏见的结论-在云上运行肯定比物理机器上运行性能差。确实,在云上运行Hadoop对平台方还是面临一些挑战的,下面主要讲述这些挑战及平台方怎么解决的。 前言 在云上运行Ha

Hadoop开源社区完全支持腾讯云对象存储COS

大数据分析需要花费大量的计算和存储资源。在传统模式下,计算与存储资源耦合度较高,一旦资源不够,就需要对二者同时进行扩容。近年来,在云计算的推动下,开发者逐渐开始采用云上对象存储,来实现计算与存储的分离,进而提升资源的灵活性,并降低成本。

Hadoop助力现代数据仓库技术的深刻变革

我今天首先会介绍一下我们公司,技术人员可能对我们公司很了解,很多其他行业的朋友不一定了解我们公司。我们是一家专门做Hadoop技术的公司,我们从2013年成立到现在有3年时间,发展还是比较快的。我们专注在底层开发下面,我们开发的代码量接近1千万行,

Hadoop生态系统在壮大:十大优秀酷大数据项目

管理和分析大数据已经变成了重大挑战,数量急剧增加的信息从社交媒体、连接到物联网中物件的传感器、结构化数据、非结构化数据以及可以收集的其他一切数据收集而来。为了应对这项任务,开发人员已开发了一系列新的开源技术。 旗舰软件Apache Hadoop是Apach

DIY Hadoop大数据环境的5大挑战

甲骨文公司大数据产品经理Jean-Pierre Dijck称:IT部门认为我已经有服务器,我还可以买到便宜的服务器,我也有人员,所以我们不用花多少钱就可以构建自己的Hadoop集群,这当然是一件好事,但是IT部门在部署时会发现这里会有很多他们没有预料到的额外开销。

Hadoop环境中管理大数据存储八大方法

虽然,通常解决Hadoop管理自身数据低效性的方案是将Hadoop数据存储在SAN上。但这也造成了它自身性能与规模的瓶颈。现在,如果你把所有的数据都通过集中式SAN处理器进行处理,与Hadoop的分布式和并行化特性相悖。你要么针对不同的数据节点管理多个SAN,要么

监控大规模Hadoop集群,Prometheus大获全胜Zabbix?

随着公司业务发展,大数据集群规模正在不断扩大,一些大型集群物理机节点甚至已近上千。面对如此规模庞大的集群,一套优秀的监控系统是运维人员发现及处理故障的关键利器。经过多次选型和迭代,笔者选择了Prometheus,这款时下火热而强大的开源监控组件为

联系我们

联系我们

0577-28828765

在线咨询: QQ交谈

邮箱: xwei067@foxmail.com

工作时间:周一至周五,9:00-17:30,节假日休息

返回顶部