Wikia开发开源搜索引擎 Google面临更多对手

来源:百度文库 编辑:神马文学网 时间:2024/04/28 04:47:29
8月13日国际报道 Google和其它搜索引擎面临的并非Wikia这一个新的竞争对手,而是数以百计、数以千计的竞争对手。
Wikia CEO吉尔表示,Wikia项目研究成果将进入开放源代码领域,降低人们开发搜索引擎的成本。新搜索公司无须投入数百万美元索引Web,开发建立搜索网页需要的软件,过滤空网页和垃圾网页,开发计算排名的算法,它们能够在互联网上免费发现这些产品。
吉尔在接受采访时说,要建立一个搜索站点仍然需要投入500-1000万美元,我们希望将搜索站点的开发成本降低到500美元。我们没有将Google看成是竞争对手,我们的竞争对手是成本。
该项目包含4个部分:Web的索引、开发搜索引擎软件;利用算法和人帮助过滤站点;对结果进行排名。搜索引擎中最昂贵的部分之一是对Web的索引。企业需要购买服务器和软件,对Web进行遍历。
吉尔说,新创建的搜索公司用在购买服务器上的成本将高达100万美元。这不是一个好主意的原因有二个:每家搜索公司都必须投入数百万美元重复做相同的工作,使这些数据能够开放地被所有公司使用应该是一个好主意。我们的目标是建立供公开使用的Web遍历数据。
对Web进行索引是成立一家新搜索公司的主要障碍之一,通过不断的对Web进行索引,现有搜索引擎在不断的提高这一门槛。搜索引擎通常每周,甚至每天都对Web进行索引。现在,这一时间已经缩短到了1小时,甚至更短的时间。对Web进行索引的高成本已经成为了一种竞争壁垒。 数据挖掘研究院(HAMMER_SHI)
Wikia认为它对Web进行索引的成本几近于零,因为它要求互联网用户通过从Grub下载Web索引软件帮助完成索引工作,他们将利用计算机的空闲时间对Web进行索引,并将搜索结果返回给Wikia。目前,已经有1000名用户下载了该软件,吉尔希望将这一数字提高到10万以上。
Wikia正在考虑利用开放源代码Lucene搜索引擎软件。Wikia计划在Lucene项目中投入更多资金,确保它能够更好地运行,或开发自己的软件。
搜索技术的另一个关键部分是决定搜索排名,确保用户发现所需要内容的算法。这种算法是搜索公司的秘密,由于担心被黑客和其他人利用而绝不会公开。Wikia决定开发一个算法,并放在互联网上供用户免费下载。用户也可以对算法进行修改。
Wikia还计划让互联网用户对网页进行过滤,并希望这能够提供更好的搜索结果。
在完成后,Wikia搜索引擎可能会带来收入,但这不是该项目的着眼点。