Google的黄金拍档,信息分类专家Guidebeam

来源:百度文库 编辑:神马文学网 时间:2024/04/27 15:25:54
搜索引擎9238 2000.11
http://www.guidebeam.com
它的创造者坚持认为这不是个搜索引擎,因为它不搜索,它把搜索请求发给google,然后把所有返回的搜索结果用超目录层层分类。
一句话,它只管分类,是个专业的信息分类工具。清注意它是针对“所有返回的搜索结果”分类,不象vivisimo最多针对500个搜索结果分类,所以如果搜索“china”这样有11,500,000条搜索结果的词,它就要分析这11,500,000条搜索结果互相之间的共性,然后把相似的网页归在一个类里,再把相似的类归在一个组里。
也许因为分析的工作量大,所以现在速度还不太快,有时要五秒以上,相信以后会越做越快的。
您打开了guidebeam的首页千万别急着收藏,先试着输入“china”搜索,看到搜索结果了吗?好,请您再随便点击进入一个分类如“China WTO“。 OK,您该明白guidebeam的结构了,跟在分类后边括号里的数字表示这个分类与您用的关键词的相关度,100是最相关的。如果没找到满意的分类,下边还有“more”可点击显示更多的分类。
您往下多点几层后会发现一个问题:虽然它的分类用起来很舒服,但是也许点击进了五六层后还没见到网页,只有分类。网页上哪去了呢?在guidebeam的标准搜索界面,您要一直点到绿色的分类出现才是最后一层分类,然后点击才出现网页搜索结果。
这就是我劝您别收藏首页的原因,它的标准搜索界面使用价值极低,迟早会被抛弃。请您从首页点击“Advanced Search“进入高级搜索界面,这时才应该加入收藏夹,看到了吗?那个”Frames View“就是你要选用的。
在这方面guidebeam做得有点幼稚,它至少应该提供“Standard View”和“ Frames View”的随时切换功能,现在却是从后者到前者方便,从前者到后者麻烦。还可以把“ Frames View”作为默认,最佳做法当然是可以记忆设置了。我是觉得只要“ Frames View”够了,哪位网友觉得“Standard View”更好的,不妨说说理由。
在“ Frames View”里搜索china,得到的右栏是搜索结果,左栏是当前搜索结果的分类,您在左栏里每点击一次右栏就刷新一次,显示您点的那个分类的搜索结果。我是这么着一层层点下来的,您自个儿点击试试,注意观察左栏的分类和右栏的搜索结果是如何变化的:
china > China WTO > China WTO entry > China WTO entry and benefits > congress divided on China entry and benefits > congress divided on China entry and benefits for US
这“ Frames View”有个缺点,就是左栏显示的分类条目远没有“Standard View”多,老要按“more”是很不方便的。它分析搜索结果并分类的时间是相同的,没有必要只显示一部分分类,我想它以后会全部显示的。
Guidebeam是澳大利亚DSTC Resource Discovery Unit技术产品的一部分,他们把这叫做hyperindex(相对于超文本,应该叫它“超目录”亦或“超索引”?),用于把庞大杂乱的信息归类结构化。据估计2000年这个信息分类市场的价值是50亿美圆。
它的设计目的是
1:帮助用户更精确的描述他们想要的信息。
它尤其适于:A没有搜索常识的菜鸟用户,他们经常使用糟糕的无法返回所需信息的搜索请求,但是他们占了网民的绝大多数,这种情况永远不会改变。 B我不能表达我想要找什么,但是当我看到它时我就会知道我找的就是它。 ‘I don‘t know what I want, but I‘ll know when I find it‘
2:用超目录把所有搜索结果归类,
以减少巨量无序信息带来的搜索负担,帮助用户从大部分干扰信息中解放出来,只浏览他需要的那部分信息。就好象您去一幢大厦里找人,您不知道他在哪里,只有从头到尾一层层一间间房门敲过去,但是超目录等于给了您一份名录,而且它已经把相似的楼层放在一起,把相似的房间放在一层,把相似的人放在一个房间。 如果您非常清楚自己想找什么,那么Guidebeam帮不了您大忙,但如果您是新手,如果您的搜索请求很广泛或有点模糊,Guidebeam会帮您发现自己真正要找的东东。
由于现在网络检索的信息量之大,不够精确的搜索请求常导致大量的无关材料,而用户不得不跋涉这些材料里去寻找“干草堆里的针”。这种情况不仅浪费时间,而且潜在的重要信息可能被错过。GuideBeam 填补了这个缺口,它以上下文相关的形式把用户直觉的导向相关的搜索请求,这个过程被叫做“搜索请求导引“,目的是从用户本身导引出更精确的搜索请求,这样就可以返回更相关的搜索结果。
GuideBeam 声称在两个领域有所革新。
1:灵活的简单自然语言处理
为了摘取可依据语法结构分析的可能跟用户请求有关系的搜索请求,资料是实时分析的。那些算法在处理速度和和准确性之间踩了一条恰到好处的线。注意,Guidebeam不使用复杂的语义分析,也从不求能够高度符合语法结构。
2:搜索请求推理
GuideBeam 从解析资料产生的语法结构中摘录和推理出短语。逻辑上来说,这些短语是由用户最初的搜索请求得出的结论,也是最初搜索请求扩展出的相关搜索。这个推理机制遵从90年代初在人工智能研究中出现的 ‘rational monotonicity‘ 原理。
Guidebeam的技术虽好,但它显然没有做搜索引擎的经验,所以用起来有很多不方便的地方,这方面它应该学vivisimo。默认frame界面,搜索引擎除了默认的google,至少还要加上alltheweb、altavista、inktomi、northernlight和ODP供选择,还有vivisimo新版本方便的设置和控制功能等也都值得一学。
作为一种测试性质的产品,Guidebeam并不是完美的,现在还不能立即给分类目录致命威胁。只是这样的信息分类技术,迟早是分类目录的心腹之患。
分类目录也有自己的发展方向和应变之道,不过这个题目大了一点,以后再讲吧。