为什么我们不能做一个Google?

来源:百度文库 编辑:神马文学网 时间:2024/04/27 21:36:21
“Google为什么不做这个?”这是一个新兴网络公司面对潜在投资者的第一个问题,但是现在创业者们可以反问“为什么我们不能做一个Google呢?”
类似Hadoop、Lucene、Nutch,等开源搜索项目稳定而缓慢的成熟,以及通过Amazon网络服务的按需计算的实现,表明在大部分创业企业中的搜索基础构建并非不可企及。
Hadoop是一个复制了Google文件系统分类功能和对于大数据量计算的Google MapReduce 演算系统的应用程序构架。Lucene 是一个基于Java的搜索和索引系统。Nutch是在Lucene基础上的进一步扩展,增加了基于Web的爬虫和其他附属搜索功能。
这些开源搜索项目已经在 Krugle、Powerset、Wikipedia 和Zimbra等公司和组织内得到了应用。
Krugle是一个建立在Nutch和 Lucene.基础上的,专门为程序员设计的搜索引擎帮助用户发现在线代码和技术信息。Krugle 的CEO Steve Larsen说:“没有 Nutch 和Lucene,我们不可能创建我们现在的搜索功能,也不可能拥有现在的速度……它们对于我们在短时间内解决技术问题极其重要。”
Krugle 的CTO Ken Krugler认为调用代码也是很重要的,“从Nutch 和Lucene中,我们有了我们需要的一种垂直解决方案的灵活性,商业解决方案的要求更为严格,更难弄。”
Krugle 在一家主机托管服务(collocation facility)公司内运行着大约100台服务器。Krugler 说Amazon的Elastic Compute Cloud(EC2)服务看起来大有前途,但Krugler认为对于公司来说这还仅仅是个开始。EC2是一种简单却比按需付费更强大的虚拟程序。它让开发人员利用Amazon数据中心的处理能力,能够与Amazon的Simple Storage Service,以及即时通讯、搜索、电子商务等其它服务“协作”。
新兴搜索公司Powerset 正在毫无保留地使用EC2 建设其即将面世的自然语言搜索网站。在Web 2.0峰会上Powerset 创始人兼CEO Barney Pell宣布这一点时,说他的公司使用Amazon的技术“代表了搜索产业内竞争力量的一个重大转变”,因为Powerset不必花巨额资本就可以“做出一个功能足够强大搜索引擎搜索整个网络为千百万用户展开服务,并与Google和Yahoo展开竞争.”
Barney Pell并没有提到他的公司也正在使用Hadoop在将之储存到本地网络之前来储存搜索结果。在一封发给 Hadoop 开发者的 e-mail中,Powerset 的CTO Lorenzo Thione描述了,如何将Hadoop 和EC2 应用于容错搜索系统(fault-tolerant search system)。
“ Hadoop作为以EC2应用为基础的方法,有一个很好的特征是,可以灵活流畅地改变集群系统部分请求数量”
当然,对于 Google来说有许多搜索基础设施,即使对手获得某些类似的技术手段, Google 也仍然具有难以对付的用户基础和强大的品牌实力。也就是没有什么基础使这些工作成为一项生意。现在还没有一个开源广告平台来与 Google,、Microsoft和Yahoo的广告平台相抗衡,更惶论Amazon 和eBay。
但开源项目目前已经在成功的商业项目中广泛应用,这些公司使用开源软件推动其项目开发。 Krugle和Powerset是典型案例。值得注意的是Yahoo在推动Hadoop向前发展。
尽管开源项目目前尚不能实现完全商业化,但毕竟给予新兴技术公司一种可能,推动更多的新兴力量加入新一轮技术竞争。
在Krugle和Powerset等公司向Google 发起挑战的时候,我们是否也要自问“为什么我们不能做一个Google?”。