你能想象一个企业的数据仓库究竟有多大吗?虽然下面的数据来自于两年前,但是还是挺震撼的。相信目前,这些巨型的数据仓库“怪物”的体积又增大了几倍。行业分析师Curt Monash曾经见过许多非常大型的数据仓库,并进行了总结,其中用到的数据管理软件工具更是多种多样,有传统的Teradata数据仓库,也有Greenplum这样的MPP数据库,还有许多开源的技术,比如Hadoop/Hive等。
1、ebay:公司有超过6.5 PB的数据库运行在Greenplum上,另外2.5 PB的企业数据仓库运行在Teradata上。
2、Facebook:脸书公司刚刚完成IPO,它们是着名的互联网数据巨鳄,也以使用开源技术着称。它们有2.5 PB的数据运行在Hadoop/Hive集群上。
3、沃尔玛、美国银行都有非常大的数据仓库,与戴尔公司一起使用了大型的Teradata
4、雅虎公司的网络日志数据库运行在私有软件上,据说大小是eBay Greenplum系统的六分之一。
5、福克斯/Myspace有几百TB的数据库运行在Greenplum和AsterData的nCluster上。
6、TEOCO公司有100多TB数据运行在DATAllegro上。
7、戴尔公司除了Teradata之外,也有大量的数据运行在DATAllegro上。
8、有多家公司还选择使用Vertica,其数据量也超过了200 TB。
随着国内互联网等行业的飞速发展,包括淘宝、京东等电商的数据量也是达到了非常恐怖的程度,据了解京东正在测试Oracle Exadata,像Teradata在国内的各大银行中也有很广泛的应用。以后可以考虑写一写国内的几个大型数据仓库系统,只不过国内用户是否愿意透露数据量还存在疑问。