分类搜索引擎体系的构建及其特点

来源:百度文库 编辑:神马文学网 时间:2024/04/27 14:48:11
分类搜索引擎体系的构建及其特点 作者:E剑 发文时间:2005.12.02由于分类搜索引擎的索引内容与范围以及用户群体不同,在类目划分、类目设置、类目序列及其检索方式上,亦有着各自的差异,在分类体系的构建上既各有特色,又具有本质的共性特征。

1类目划分强调易用性

类目划分是构建分类体系的基础,划分的原则和标准决定着分类体系的性质和功能。体系分类法坚持划分的学科系统性原则,在同一个等级上采用唯一的标准划分类目,形成上下位类层层隶属,同位类相互排斥的能够揭示事物发展规律及其内在联系的严密的体系结构。而网络分类体系类目的划分,首先考虑的是尽可能地减少点击次数和直观揭示,为突出类目体系的通俗性和易用性,不惜以牺牲系统性为代价,在同一划分过程中采用多个不同的划分标准,造成类系内涵交叉,类列外延重叠。以此形成的体系结构,尽管比较 “时尚”,也确实方便易用,但在方法论上缺乏科学认识的意义。

例如,在yahoo大类“Entertainment(娱乐)”的二级类目“Movies and Film(电影)”、搜狐“文学”大类等类目的划分中,分别采用了题材、载体、体裁、类型、时代、地区等标准进行划分,若按照每一次划分必须采用同一个标准的严格的体系分类原则,这些类目需要进行多次划分,形成较多级次的类系。又如,yahoo对其大类“Reference”的二级类目“Libraries(图书馆)”,搜狐对其大类“公司企业”等类目采用了多重列类法,分别按性质与国家等区分图书馆,按经营内容与地域区分公司企业,搜狐还采用分面组配的方法,在“国家与地区”类下把其它15大类收录的网站按地域重新进行分类。诸如此类的类目划分方法,打破了传统的分类规则,在同一类目层面上揭示和反映隶属关系的概念和事物,对同一类目进行多角度的揭示和反映,无疑更符合网民的要求,更能突出非类体系的易用性。

2类目设置以实用性为主

体系分类法(如DDC和《中国法》)以学科立类为主,强调体现类目的系统性,而网络分类则以主题立类为主,注重类目的实用性。国外的分类搜索引擎(如yahoo等)大都按主题立类,追求的是直观与实用,很少考虑类目的系统性,这样的类目体系称之为“可浏览式主题索引(subject index)”,国内的分类搜索引擎(如搜狐等)多采用以主题立类为主,学科立类为辅,主题与学科相结合的立类方法,其分类体系兼具学科的系统性和主题的直接性特点。

网络分类体系按主题立类的实用性是显而易见的,它打破了体系分类法严格的隶属关系,不受学科系统性约束,常常把一些在学科分类中必然处于较低级位的类目,提升为基本大类或二级类目,把基本大类或上位概念类目分拆降列于较低位类,更有一些在学科分类中根本不可能立类的主题,也堂而皇之地挤身于二、三级类目之中。

如在yahoo的14个大类中,只有“Science(自然科学)”、“Social Science(社会科学)”和“Arts & Humanities(艺术与人文科学)”与DDC的一级类目相同或相近,大类“News & Media(新闻与媒体)”在DDC中位于二级类目,大类“Reference(参考资料)”中的内容分散在DDC的若干二--五级类目之中。又如,搜狐大类“公司与企业”在《中国法》为====级类目(F27),“生活与服务”为====级类目(TS97),“娱乐与休闲”则处于==级类目(F719.5),在《中国法》中属于基本大类的哲学、生物科学和航空航天等在搜狐中降列于二级和三级类目,“留言板/BBS/论坛”、“第53届世界小姐(2003年)”、“打工文学”、“大学BBS”等等二、三级类目,在《中国法》中原本是不可能立类的,也赫然在搜狐中占有一席之地。

网络分类体系以实用性为主的立类原则,把热门主题或点击率高的类目置于显著位置,吸引了网民的关注,方便了浏览与检索。但也正是实用性的立类原则,造成了不同搜索引擎分类体系的差异,分类体系的差异即提供了多角度认识和组织网络资源的方法,也给网民熟悉和利用分类搜索引擎带来一定的困难。

3类目序列以检索频次与检索习惯为主要依据

类目序列即序类,是指同位类的排列。在体系分类法中,同位类的序列坚持逻辑次序原则,或按自然进化顺序(低级--高级),或依复杂性及数量渐增(简单--复杂、少--多),或按时空顺序(先--后、近--远)等等排列,而网络分类则着重考虑网民的检索习惯,按检索频次或字顺排列。如yahoo首举“Business & Economy(贸易与经济)”,后列“Reference(参考资料)”,搜狐从“娱乐与休闲”到“国家与地区”无不明显地体现着重要性递减的原则。yahoo的“Regional(地区)”,搜狐的“国家与地区”、“公司与企业”的二级类目等等具有地域性和不便区分先后次序的类目均采用字顺序列。

在同位类的序列中,网络分类体系首先列举检索频次高的类目,突出重要主题,迎合了网民的检索习惯与检索偏好,但也不可避免地削弱了类列次序的逻辑性。网络永远是一个无法把握的动态世界,网民的检索习惯与检索偏好无不处于变化之中,类目的检索频次也无不随之发生改变,极易造成分类体系的动荡。任何分类体系都需要相对稳定,尤其网络分类体系更需要客观地分析和把握网络资源和网民兴趣的变化,着重提高分类的科学性、立类的系统性和序类的合理性,在不断满足网络检索需求的同时,力求分类体系的相对稳定。

(T126)