Internet Archive 的海量存储浅析-存储,IA,草根网IT资讯精读(20ju...

来源:百度文库 编辑:神马文学网 时间:2024/04/28 05:29:27
I
nternet Archive(IA)(http://www.archive.org/) 这个站点大家应该都不陌生。IA 旨在建立所有互联网站点的"档案库",如果说 Google 是互联网的数据库的话,那么 IA 就是互联网的数据仓库了,定期对每个 Web 页面保存快照,数据量之大可想而知。
先看看 IA 每天需要面对的处理能力:
存储超过 850 亿个 Web 页面;
每天大约 600 万次的下载;
Wayback Machine 收到大约 1000 万次点击,每秒钟要处理 100-200 个点击;
每天10万次左右通过 URL 查找;
每天 400 万次返回请求;
存储的内容包括本文、音频、视频...等各种 Web 可见的格式。
显然 IA 需要的是一种前所未有的存储解决解决方案--廉价、可靠、低功耗...总之用起来要省钱。IA 的志愿者不得不考虑自己动手建立符合他们需要的存储系统,这下子可不简单,2004 年,第一个 100GB 容量的近线存储投入使用 。IA 的志愿者之一 Saikley 干脆抽身而出成立了 Capricorn Technologies 公司,专为类似组织提供存储解决方案。前面提到的 100TB 容量的产品即为该公司 GB 系列的产品。现在 IA 已经采用 PS(PowerStore) 系列的 PetaBox,是量身定做的,装机容量 1.5T,目前容量已经超过 3PB(怕是远远超过 3PB 了)。PS 系列产品每节点原始容量可以达到 3T,使用日立 Deskstar 硬盘,仅仅占 1U 的机柜空间。IA 也在站点上介绍了定制的这台 PetaBox 的一些规格要求以及参数。
PetaBox 也是 Linux 在企业级应用取得成功的一个范例。
PetaBox 存储产品给存储界带来了不小的震撼。每 GB 的成本仅仅是 2 美元。这还是 2005 年的价格,现在应该更便宜了。搜索了一下,这家公司目前还没有进入中国。
PetaBox 系统通过一个集中式的 PXE 启动服务器运行在 Debian 或是 Fedora Linux ,通过 Nagios 进行整个环境的监控。 管理成本也并不高--每 PB 一个人。
作者:Fenng
网址:http://www.dbanotes.net/database/internet_archive_storage.html
Internet Archive 的海量存储浅析-存储,IA,草根网IT资讯精读(20ju... 译文:击败Google的赛跑 -google,译文,草根网IT资讯精读(20ju.com) 蔡文胜:互联网是商人的事业 -蔡文胜,人物,草根网IT资讯精读(20ju.com) 麦田:豆瓣的真相-豆瓣|麦田|草根网IT资讯精读(20ju.com) “敏思群组”一个值得关注的SNS-敏思,群组,SNS,草根网IT资讯精读(20ju.com) 张宏良:盛世危言,大祸临头前的媒体狂欢-张宏良,金融,投资,草根网IT资讯精读(20ju.... 热干面能不能走向世界?——论互联网公司的倒掉-观点,草根网IT资讯精读(20ju.com) 谈谈网站运营需要注意的四个要素-运营|站长|草根网IT资讯精读(20ju.com) Web 标准实践——豆瓣的首页-豆瓣|UI|UE|草根网IT资讯精读(20ju.com) 刘兴亮:从卓越困境看外国电子商务的月亮-电子商务|卓越|草根网IT资讯精读(20ju.co... 张宏良:盛世危言,大祸临头前的媒体狂欢-张宏良,金融,投资,草根网IT资讯精读(20ju.... 中国计算机报:解密网盛科技-网盛,观点,草根网IT资讯精读(20ju.com) 道听途说互联网:做《知音》还是做《瑞丽》 -互联网,龚文祥,草根网IT资讯精读(20ju.... 百度首席科学家威廉张:百度编辑将非常非常重要-百度,编辑,草根网IT资讯精读(20ju.c... 斯蒂夫乔布斯:我生命中的三个故事-乔布斯,苹果,人物,草根网IT资讯精读(20ju.com... PC Magazine:7 大 Web2.0 新特性-web2.0|理论|草根网IT资讯精读(20ju.com) 杨澜资本秘径:亿万财富背后不为人知的故事-杨澜,资本,投资,草根网IT资讯精读(20ju.... 站长实战:让google baidu收录您的网站最快最多-站长|经验|草根网IT资讯精读(... 道听途说互联网:做《知音》还是做《瑞丽》 -互联网,龚文祥,草根网IT资讯精读 P2P海量存储的技术实现问题和市场预测 IT顾问PPT的三重境界【存储部落】网络存储技术 IT人员应当了解的七个存储事实 IT人员应当了解的七个存储事实 变量的存储类型