Yesky首页| 产品报价| 行情| 手机 | 数码 | 笔记本 | 台式机 | DIY硬件 | 外设 | 网络 | 数字家庭 | 评测 | 软件 | e时代 | 游戏 | 图片 | 壁纸 | 群乐 | 社区 | 博客 | 下载
软件频道>设计工具系统开发安全办公陶吧IT教育Vista频道|Google Chrome SOA案例研究
您现在的位置: 天极网 > 软件频道 > 行业报道 > Yahoo! 的数据仓库:世界上最大最忙
全文

Yahoo! 的数据仓库:世界上最大最忙

2008-05-27 08:12 作者: DBANotes 出处: 天极网软件频道 责任编辑:>那天

  微软Yahoo!的收购持久战可能让很多人都新闻疲劳了。但今天看到的这个关于Yahoo!的技术新闻还是值得看一下的:Size matters:Yahoo claims 2-petabyte database is world's biggest,busiest。Yahoo!的VP Waqar Hasan在文中披露Yahoo!的数据仓库当前容量为2PB。用于分析每月5亿的用户访问行为,每天处理 240亿次的事件,号称世界上单个最大、最忙的数据库

  尽管有的数据仓库容量要比雅虎的大。但那些DB或是存储非关系性数据,或是存储的压缩后的原始数据,不能进行即时分析,雅虎之前的也有数百T这样的数据。眼下 Yahoo!数据仓库存储的是结构化、可分析的数据。预计下一年可能膨胀到数十PB。eBay号称数据总量有6PB,不过根据一些消息来看,单个最大的DB只有1.4 PB。

  Yahoo!在2005年买了一家叫Mahat Technologies的初创公司(就是Waqar Hasan操刀的),这家公司以PostgreSQL数据库为基础,开发了一个新型DB,其特点是 基于列的而不是基于行的模式。不难理解,这样数据写入的速度会慢下来,但是读取的速度会快很多【去年的侠客行上,雷鸣在演讲的时候讲过他在百度的时候做的一个优化的例子。和这个思想非常相似,所以当时我说对我“有启发”】。Yahoo!买了之后,对该产品进行了持续性的改进(内部代号:ELCARO?),比如压缩,并行处理能力加强、优化查询等等特性的添加改进。而针对使用者的接口仍是PostgreSQL。这应该也算PostgreSQL在顶级企业又一个成功案例。

  这么大的数据库并没有采用传统的SMP架构构建,而是采用普通PC作集群(用了不到1000台)。很明显这是Share Nothing而不是Share Storage的DB集群。通过上述独特的设计方式,能够对此海量数据进行有效的分析,这是个不小的技术革新,也是与Google Map Reduce完全不同的计算模式。

  让人感慨的是关于世界上的超大数据库一文中罗列的数据,现在看起来已经并不惊人了。以前总说信息爆炸,这个时代刚刚来临。

快车FlashGet下载 酷狗音乐下载

网友关注
最新上市
编辑推荐
欢迎订阅天极网RSS聚合资讯:http://www.yesky.com/index.xml