我们索引这么数据做什么用? - 关于RSS搜索引擎发展的思考

来源:百度文库 编辑:神马文学网 时间:2024/04/28 02:31:23
我们索引这么数据做什么用? - 关于RSS搜索引擎发展的思考 (2)
July 3rd, 2005
FeedSearch很快就索引了上百万的RSS文章数据,但很快我就困惑了。 索引了这么多的数据做什么用呢?从每天的access_log上看,FeedSearch每天是有一定流量的搜索,尤其在你知道自己想要读哪方面的Blog文章,而又忘了地址的时候,这非常有用!在FeedSearch上输入残存记忆中的关键字,Click! 马上FeedSearch就会为你找到你想要的。
另外,我还看到一些朋友利用RSS阅读器来订阅FeedSearch的搜索结果,比如有人对SNS感兴趣,可以在FeedSearch上搜索出结果,同时FeedSearch也提供了搜索结果的RSS输出,这样,利用FeedSearch的搜索功能 + RSS阅读器就可以订阅类似Google新闻这样的Blog新鲜信息了。
但我觉得这都不够。因为RSS文章更新非常快速,也许10天前的文章就已经被淹没在长长的搜索结果中了。而10天前的信息并不一定就没有今天的信息有价值。如何发现这些浩瀚的信息中的精华并整理,重新展现给用户呢?
我做了两个方面的尝试:
1、FeedSearch精华版
将每日精华的文章提取出来,集中展现出来供用户浏览。
2、RSSOnline在线浏览
RSS搜索引擎是对RSS信息进行整理和利用的一种方式,其它应该还有很多种方式。现在涌现出的很多新兴的模式都是对RSS信息不同方面的信息重新组织而已。和信息索引相对,另外一个更加重要的就是信息浏览。所以RSSOnline作为FeedSearch的一个补充就这样诞生了。
虽然RSSOnline是我对RSS搜索的一个补充尝试,但从实际运行的情况看,RSSOnline要比FeedSearch访问的人更多。其实事实也应该是这样。因为漫无目的浏览的人要远比自己知道要些什么的人要多。网络并不仅仅是一个查阅信息的工具,网络更是一个精神娱乐、休闲的地方。
早在2005-1-30,大郎就在他的“网络营销观察”对FeedSearch和RSSOnline的模式进行了分析。文章链接:RSS搜索引擎如何发展?[续]从feedsearch.net和rssonline.net说起
Posted inRSS技术 |3 Comments »
我们索引这么数据做什么用?- 关于RSS搜索引擎发展的思考 (1)
June 28th, 2005
现在的RSS搜索引擎已经很多了,国内知名的有GrassLand、8Fang、FeedSS等,并且还有不断涌现之势。非常有意思的是,几乎和在我迸发灵感的那个早晨同时,8fang和FeedSS同时蹦了出来,哪个推出的更早,现在也无从考证。但zheng在他的Blog中说“好像约好了似的”,Zheng一直致力于Blog on Blog,相信他有这种感觉,那么应该也和事实查不多少吧。
曾经,几家RSS搜索引擎都在迅速扩充Feeds数量,FeedSearch在刚刚推出时使用爬虫搜索了几个大的BSP,抓取了大约3000个Feeds,最高时也仅收录了10000个Feeds。经过短暂的扩充期,其后不但没有再继续进行大规模的自动扩充,而是完全依靠Blogger自己的Feed提交,还对一些沉默Feeds进行了多次清理。现在基本稳定在5000个Feeds左右。有如下几方面的考虑:
FeedSearch的机器资源有限,我们不可能像Feedster哪样把Feeds数量增加到百万、千万级 即便仅抓取5000个Feeds左右,当前抓到的文章就轻松突破百万篇,并且由于Feed更新很快,抓取频率也很快。搜索时很快几天前抓取到的数据就到了数页之后,变成了沉默信息。而新的信息未必就比老的信息有价值。如果不能找出一种信息的自动评价机制,再多的信息又有什么用处?不幸的是,现在的大多RSS搜索引擎都没有类似Google的PageRank的机制来对结果进行评判和优化。 如果一个Blogger愿意花费几秒钟甚至几分钟在FeedSearch上登记,那么,有理由相信这个Blogger对自己的Feed还是比较重视的,我姑且武断地认为这比使用爬虫抓过来的成千上万的Feed有价值。
所以FeedSearch自推出后经过短暂的大规模自动收录外,再没有进行过大规模的扩充。令人欣慰的是,现在FeedSearch每天都有几个Blogger来登记自己的Feed。虽然这是一个偷懒的办法,但这也是FeedSearch的搜索结果可能比其它RSS搜索引擎更加有价值的原因。
姑且如此吧,在找到可以应用于Blog文章评价的类似PageRank技术之前,暂时我还没有对Feeds进行大规模的扩充的计划。
Posted inRSS技术 |1 Comment »
关于FeedSearch.net的闲话
June 28th, 2005
FeedSearch是我半年前一时之兴,做起来的。当时国内的RSS搜索引擎还没有现在这么多,国外的我仅使用过Feedster,但当时Feedster收录的中文的Blog资源还很少,所以,就在想为什么不自己做一个?
RSS搜索引擎远比网页搜索引擎来得简单,因为RSS本身是格式化的数据,而网页则完全是侧重于展现。想从网页上分析出一些数据远比想像的要困难。前段时间还有一个朋友问我如何做一个工具去抓取网页上的公司的联系方式信息,呵呵,我也没有好的建议送给她。其实她想要做的是人工智能,想像一个爬虫爬过格式千差万别的网页,并且能够分辨出哪些信息是联系方式信息。而RSS则完全不同,所以FeedSearch仅仅花费了我一个周末的时间就上线了。这当然要感谢车东的开源的WebLucene的帮助,WebLucene本身搜索部分已经做的相当不错了,这个我可以直接拿来使用,而Weblucene是需要周期性地从数据库的数据导出到一个XML文件,再从这个无比巨大的XML中读取数据进行索引。这一点我没有采用。因为我需要FeedSearch是实时的,或者基本是实时的。所以,我自己编写了RSS的解析器、Timer,并根据对不同的Feed的活跃度的评价更新频率从5分钟到72小时不等。使FeedSearch有了比较好的实时性。
更好的实时性,这是RSS搜索引擎相比较传统的Web搜索的优势。当然,RSS搜索引擎还可以对搜索结果进行更好的规整并获取更加准确的其它有用信息,并重新输出。这也是传统Web搜索引擎所没有的功能。
虽然RSS搜索永远不会达到像Web搜索那样的市场和普及,但他终究有自己存在的价值。大者恒大固然不错,但小者并不一定就因此失去意义。互联网的细分化趋势已经非常明显,这也是一个不争的事实。