中文网志年会 - [搜索]篇

来源:百度文库 编辑:神马文学网 时间:2024/04/30 19:09:46
网志年会也聚集了很多创业的团队,各个团队普遍都对搜索技术非常感兴趣,虽然目的不是和目前大的搜索引擎竞争,但是,通过全文检索技术将自己网站内部和外部的内容更好的相互引用确实是一个普遍的需求。
需求主要是两个方面:
1 站内搜索:站内搜索能便于用户迅速直达相关的内容;
目前很多数据库都提供了全文检索功能,但是对中文的支持优先,另外就是缺乏和其他字段组合的Rank机制。
Lucene可能是目前最常用的非数据库全文引擎,几乎各个语言平台上都有相应,也有一些支持中文分词的解决方案出现。
2 内容类聚:良好的引用能将网站内容之间形成更加网状的结构,也便于SPIDER快速遍历整个网站。
我们看到的Tagging(主题标签),也是实现文章之间通过关键词类聚的一种途径:
优点:比全文引擎实现成本要低,从一篇文章中提取1个或多个关键词,然后将有相同主题的内容类聚在一起。比起传统的目录分类:tagging更好的实现了多对多关系,更符合先写后分类的用户习惯;
缺点:是一种很有趣的造词游戏,但毕竟不能指望所有的用户都会使用10PlacesOfMyCity这样的CamelWord进行内容串联。
另外一个方式就是通过主题引擎的内容类聚:手拉手,以文找文都是这方面很好的实现。
最后,不要忘记还有很多搜索引擎提供的站内搜索服务:
Blogger为搜索引擎提供更加非中心化的内容来源,而另外一方面:搜索引擎也通过关键词将这些blogger相互联系在一起。大部分blogger都有这样的体会:网站的主要访问来源是搜索引擎,和其他很多blogger之间相互初步了解都是先从搜索引擎上通过特定的主题关键词找到的:所以说 blogger之间是通过“关键词”形成的小圈子(Social Network)

引用一段朋友的对话:
还有我觉得写blog的人都形成自己的小圈子比较多。你觉得呢?
Che: 是的
qingshuidanmu: 比如说keso
比如说你。
Sent at 19:58 on 星期日
qingshuidanmu: Busy
qingshuidanmu: 比如说donews
小的说来是几个人,大的说来更是一个团体。都是在这个团体中演变。
你们的文章在这里边转悠。
譬如转帖,也是转里面的圈子中人物的文章。