-重要的网络检索方法

来源:百度文库 编辑:神马文学网 时间:2024/04/28 21:49:12
重要的网络检索方法
2004年 12月16日
邢志宇
利用浩瀚无序的互联网信息,需要借助一定的工具和方法,搜索引擎肩负使命,应运而生。国内一般把搜索引擎分为"分类搜索引擎"和"关键词搜索引擎",国外则分别称其为"Directory"和"Search engine"。
Directory是指一种主题分类目录,由人工对网站进行标引和组织(hand-picked web sites organized into categories),提供分类检索;Search engine是基于"蜘蛛"程序的搜索引擎(Spider-Based Search Engine),由程序自动索引网页建立数据库,提供关键词搜索。搜索引擎是工具性实体,分类搜索和关键词搜索是搜索引擎的功能特征和网络信息的检索方法。
分类搜索是最早出现的一种网络信息检索方法,主题分类目录的创制已有相当成熟的理论、技术和丰富的成功经验。Yahoo!被认为是分类搜索的鼻祖,Directory的代表,引领着分类搜索的潮流。搜狐(搜狗)开中文分类搜索先河,其"50,000主题分类,500,000优选网站"无愧中文主题分类目录的典范,堪称中文分类搜索的旗舰。
1、何谓分类搜索
分类搜索是基于人工标引的检索方法。它以科学、实用的分类目录为工具,以规范化的自然语言为类名,在对网络信息归纳、概括的基础上,以网站为单元,提供经过专家评价和人工整序的网络信息。
分类搜索是突出族性特征的检索方法。由于分类目录已按照学科或主题对网络信息进行了标引,所有网站在分类体系中同聚异分,各有所属,"纵向成枝,横向成网",只需"按图索骥",同一类属或相关主题的信息即可"循类以求",适用于查询具有同一特征的多个目标和主题范围广、概念宽泛的问题。
分类搜索是关键词搜索不可替代的检索方法。关键词搜索以简单、快捷著称,但庞大的结果列表、大量重复和无用的信息是其永远的伤痛。而分类搜索恰恰独具优势,经过人工编辑的检索结果既以精当、准确著称,又以系统、有效见长。
分类搜索是循序渐进的检索方法。与关键词搜索即刻按照相关性递减顺序返回大量结果不同,分类搜索要首先确定所需信息在目录中的类系归属和相关路径,从大类入手,逐级浏览,渐进查询,在相应类目下按字顺展开网站列表,然后再根据网站名称和简介,对结果列表进行选择。
分类搜索是门户网站不可缺少的检索方法。互联网上搜索的概念最早来自于门户网站,资深网民对互联网的认识最初几乎全部来自于当年yahoo!提供的分类搜索服务。有关数据显示,我国将近70%以上网民是通过门户网站认识和开始使用搜索引擎的。门户网站是使用搜索引擎的主要平台,搜索引擎也为门户网站带来了巨大的经济利益和访问流量。
2、分类搜索的原理
分类搜索的基础和前提是构建一个反映网站相关信息及其URL链接的目录指南(Directory),在这个目录中,经过审核与标引的网站按学科或主题分门别类、有序排列。分类搜索就是在分类目录中,根据所需信息的学科属性或主题内容,逐级检索,循类以求。由于分类目录是以数据库形式存在的,也可以说,分类搜索就是对分类数据库的检索。
分类搜索建立在网络分类的基础上,了解分类搜索的原理,不能不首先了解网络分类体系。分类标准、类目划分、类目设置、类目序列等,对分类体系的构建至关重要,决定着分类目录的性质和功能,影响着分类搜索的效率和效果。系统性和实用性是对网络信息分类的基本要求,以学科性质为标准可以保证分类的系统性,以事物主题为标准体现了分类体系的实用性。国内的分类搜索引擎如搜狗(搜狐)等,以学科分类为主,主题分类为辅,体现了系统性和实用性的完美结合。网络分类体系的类目划分,多强调易用性原则,为了直观揭示和尽可能地减少检索中的点击次数,不惜牺牲系统性,允许在类目的同一划分过程中采用多个不同的划分标准。类目的设置以方便使用和检索习惯为依据,为了引起网民的兴趣和关注,常常突破体系分类的规则,把热门主题或点击率高的类目置于较高级位或显著位置。类目序列以检索频次为主要参考指标,首先列举检索频次较高的类目,突出重要或时尚主题,迎合网民的检索习惯与检索偏好。网络信息分类有着强烈的时代特色和功利目的,它虽然注重系统性对稳定分类体系的重要作用,但更关注检索热点及其趋势变化;它虽然重视信息揭示和检索中的逻辑关联与认识意义,但更强调检索的简捷与方便。
由于网络分类体系的特点,一些类系或类列已完全打破了体系分类的学科系统性,常规的浏览检索很难快速有效地找到目标网站,此时可以利用目录的数据库优势,用关键词直接进入某一类目,然后再在该类下浏览搜索。
3、怎样进行分类搜索
进行分类搜索,首先要了解所使用的分类体系的特点及其类目设置,如Yahoo!是主题索引式指南(subject-based guide to web sites and web content),把全球网站按主题划分为14个大类,网站收录质量较高,学术性较强,编辑严谨,久负盛誉,尤其"China "类下的中文和国内网站极具参考价值。搜狗(搜狐)是典型的主题分类目录,按学科或主题设置16个一级类目,50,000个主题分类,对中文网站收录最为全面,但二级以下同位类和网站列表没有固定的排列顺序(如按拼音或笔画),浏览查找多有不便。Yahoo!和搜狗(搜狐)都具有地区与主题(学科)分面组配检索功能,都设置有大量的交替类目,可对网站进行多角度、多途径检索。
分类搜索还需注意,由于网络分类没有统一的分类标准,同名类目或相似类目,在不同的分类体系中的类目含义不尽相同,因此性质相同或相近的网站在不同的分类体系中可能分属不同的大类,或同一大类的不同级位。如与"太极拳"相关的网站,在搜狗(搜狐)中归入"体育健身"大类之中(体育健身>武术/搏击>太极拳),而雅虎中国则列于"休闲与生活"大类之下(休闲与生活 > 体育运动 > 武术 > 太极拳);"搜索引擎"在
搜狗(搜狐)和雅虎中国中的大类归属相同("电脑网络"与"电脑与因特网"),但级位不同,分属三级(电脑网络>搜索引擎/分类目录 >搜索引擎 )和四级类目(电脑与因特网 > 因特网 > 搜寻与检索 > 搜索引擎),又如"心脏内科"在搜狗(搜狐)列有专类,而相关网站在雅虎中国中却分散在"健康与医药 > 疾病与症状 > 心脏病"和"健康与医药 > 医学 > 内科"两个类目下。凡此种种,非专门的研究人员不可能对各种分类体系了如指掌,一般用户只能根据需要和爱好,选择一种分类搜索引擎,经常使用,以熟生巧。
此外,进行分类搜索还要了解不同分类目录的网站收录特点,如雅虎中国以收录繁体中文网站见长,搜狗(搜狐)以本土化著称,分别为查找BIG5码网站和简体中文网站的首选。
对分类搜索的作用意义、网络分类、分类体系、搜索原理有了基本了解之后,我们以搜狗(搜狐)为例,来体验一下分类搜索的功能及其区别于关键词搜索的特点。
(1)进入检索页面(http://fenlei.sogou.com/或http://dir.sohu.com/),浏览分类目录,根据查询内容确定大类归属及可能的查找路径。分析检索需求要考虑和兼顾内容性质和形式特征两个方面,如检索文学报刊网站,一般首先考虑从内容即"文学"大类入手,再按载体形式区分,路径为:"文学>报刊/杂志@",从形式即"新闻媒体"入手,再按内容查找,路径为:"新闻媒体>各类新闻媒体>文学 ",也可以得到同样的结果。@为交替类目符号,其作用是指引并链接到使用类目。初次使用分类搜索,或对分类搜索不太熟练时,要把握和坚持以内容性质确定大类,以形式特征探索路径,注意使用交替类目的原则,在实践中熟悉分类体系,逐步掌握检索要领和技巧。
(2)具有某些共同特征的网站,由于种种原因可能被分散在多个类目之中,要查全相关网站,除了从内容性质和形式特征寻求尽可能全面的检索路径外,利用关键词搜索不失为有效而便利的方法。如生产红木家具企业的网站分散在"工商经济--工业--轻工业/手工业--家具制造工业"、"工商经济--工业--轻工业/手工业--木材加工工业"、"公司企业--家具--仿古家具"、"国家与地区--**(省)--城市/地区/县--**(城市)--公司/企业--家具"等三个类系的四个类目之中,其中有的路径即使是有经验的搜索者也难以预料的,这时利用关键词搜索结果中网站简介下的路径提示,就可以轻而易举掌握相关网站的分布情况。
(3)当无难以定查询内容的大类归属,或某类的下位类和网站过多不便浏览时,可利用"在所有目录下"或在"此目录下"的分类数据库关键词搜索功能,快速找到网站的类属和路径。雅虎中国的分类数据库关键词搜索功能一向为人称道,搜狗(搜狐)已取消了搜狐原有的分类数据库关键词搜索功能,虽然其互动式搜索引擎的"搜索提示"和一些搜索结果下的分类搜索路径指示,从新的角度增强了分类搜索的功能,但缺乏分类数据库的关键词搜索仍不免使人感到不便和遗憾。
(4)分类搜索和关键词搜索可以方便地相互切换,在关键词搜索的结果中,点击分类路径指示的最后一个类名,就可进入分类搜索的网站列表,如以"宠物医院"为关键词检索,在分类路径指示"公司企业>娱乐>宠物>宠物医院"、"娱乐休闲>宠物>宠物护理"中,点击"宠物医院"或"宠物护理"可得到分类搜索结果;反之,在任何一级分类搜索页面,只要在搜索框中输入关键词,即可进入关键词搜索。搜狗(搜狐)独创的分类搜索和关键词搜索的自由切换技术,使分类搜索与关键词搜索的联系更为密切,对两种搜索方式的功能互补有着积极的意义。
(5)无论是分类搜索和关键词搜索,都需要对检索需求进行概念归纳和提炼,用规范化的自然语言准确表达检索需求。二者的区别在于,分类搜索是以准确的需求表述,寻找相应的类目(类名),一次检索只能以一个类目为路径,以缩小外延的方法逐级浏览,逐类检索,如查找提供"股票分析软件"的网站,只能从"工商经济>金融/投资>股票>分析软件",或"电脑网络>软件>行业软件>股票/证券分析软件@"循序检索,不可能一下进入到"分析软件"或"股票/证券分析软件@"类目;而关键词搜索是用表达检索需求的词语即关键词与网页数据库进行匹配,可以用一个或多个关键词随意扩检或缩检,如"股票+分析软件"、"股票分析软件"、"股票+股市+分析软件"等,只要检索式长度不超过规定字节,都有可能返回结果。搜狗(搜狐)的关键词搜索具有网站分类数据库的同步检索功能,只要关键词准确得当,可同时获得人工编辑的网站信息和自动索引的网页信息。
(6)搜狗虽是独立域名的搜索引擎,但与搜狐仍属于同源同宗,且不论搜狐的关键词搜索是否采用搜狗的"第三代互动式"搜索技术,搜狗的分类目录来源于搜狐是无可争议的,然而搜狗类目设置、排列次序、网站收录数量等与搜狐不尽相同,似乎难于给予合理的解释,如果有分工的趋向,各自应有所侧重和鲜明的特色。目前仅就分类搜索而言,搜狗和搜狐在功能和效果上尚无明显的差别,都能够给用户带来愉悦享受和令人满意的结果
分类搜索是网络信息检索的常用方法,一些检索需求非分类搜索不能达到最佳效果,但由于缺乏统一的分类标准,类名缺乏规范,各种分类体系差异较大等原因,致使分类搜索不易掌握,分类搜索的使用率远不及关键词搜索。搜狗(搜狐)作为著名的分类搜索引擎服务提供商,长期致力于分类搜索的研究和普及推广,"分类搜索首选搜狗(搜狐)",已为众多网民所认同。尤其值得关注的是,搜狗"第三代互动式"搜索技术打破了传统意义上的分类搜索与关键词搜索的严格界限,增强和拓展分类搜索的功能,使分类搜索与关键词搜索有机结合,为我国网民带来全新的网络搜索体验。