关于检索,你一定想错了

来源:百度文库 编辑:神马文学网 时间:2024/04/27 08:25:10
关于检索,你一定想错了(2009-11-28 02:51:24)
标签:检索 it
感谢一些热心关注,这几个月意外层出不穷,另一方面又比较懒,所以没有持续写下去。
引言
很多人和js说,想通过系统的学习检索,使检索水平得到提高。
js很为难,因为事实上没有较系统的“检索理论”。不信的话去书店翻翻那些污七八糟的检索书,看看里面都谈了哪些“理论”。
底层的术语构成、术语组合或许有规律,但没有大样本统计很难揭示,齐夫规律仅仅是谈到词频而已。
因此,js想基于检索实践,谈一些检索实践中常犯的错误,使检索者通过增加实践,少犯错误,逐渐提高检索水平,并在实践中体会和发现一些规律,这样集思广益,或许对认识与构建所谓的系统的“检索理论”有点意义。
1. (先来个震撼点的)google一下“全球变暖”,有超过1000万个网页。(更多的俗称是baidu一下...)
错:很少有人想到这是个骗局。给检索框里的“全球变暖”加上双引号(单引号都不行),发现只有65万多网页(2009年11月28日)。
原因:
(1)google使用了分词技术以及相关性检索,将不完全匹配的网页也视作检索结果。例如仅含有“全球”或“变暖”,或者“全球”和“变暖”未连在一起的。具体输出情形,js未做确切核实。当然了,google自然有人知道,这取决于匹配规则和输出阈等。
(2)实际上即便只有6万个网页,显示说有60万个也没有问题,因为没有人会找到第60001个网页,看是否相关。
不信的话,用google提交“迪拜危机”(加双引号)翻到最后一页(相信js,你就能翻到),同时注意提示的检索结果数量的变化。
很多新闻在结束时,习惯说个“baidu一下”或者“google一下”,与某个关键词相关的网页有xxxxx个,其实这些都是废话。
2. 检索系统很强大,只有想不到,没有检不到。
错:你检不到下周中午12点北京的具体气温,检不到2012年的某一天会在做什么,检不到你的爱人现在想什么,检不到史前一万年世界上有多少只蚂蚁,检不到海底一万米究竟有哪些生物...
实际上,你只能检到检索系统收录的信息。
3. 检索高手很厉害,“人肉搜索”让人无处可躲。
错:
(1)所谓的“人肉搜索”是对“Grassroots search”(草根搜索)的误解。
搜索引擎使应用计算机检索系统进行的检索得到普及,之前仅仅是一些专业的检索人员以及专业的学术研究人员使用计算机检索系统。搜索引擎的出现,使检索的门槛大大降低,一般人(草根)也能使用了。
当然,专业的计算机检索系统在检索内容和检索功能上区别还是相当大的。
(2)菜鸟们对“人肉搜索”有两种理解:a.集中较多的人进行某个专门检索(往往是搜某个十恶不赦者);b.搜某人。
实际上,100个人一起跑,速度还是赶不上汽车,菜鸟还是菜鸟。
至于什么找到某人的相关信息,实际上往往是现实中的知情人披露,而不是什么“人肉搜索”找到。那么多人怎么就“人肉”不到贾君鹏?
(3)以js的眼光看,也没啥“检索高手”。google是大众化的检索工具,其检索功能并不繁复,baidu就甭提了。这样的检索系统要成就高手,那是yy。
“人肉搜素”从名称和效应看,好像很可怕(尽管只是虚张声势),真正可怕的是缺失话语权底层的下意识宣泄,这和菜鸟们所推崇的“高精尖”检索技术无关。
实际上,1000个被“不准geming”的蚂蚁还是蚂蚁,一样搞不定大象。
4. 我的检索水平低,是因为没有专门学过系统的“检索理论”。
错:你看一百本菜谱,自己不动手,还是只能做出猪食。
检索做为一项实践活动,目前还没什么系统的“理论”,很多需要你在实际中积累感性认识。
5. 现在的检索系统不好,垃圾信息很多,找不到我想要找的。
错:说这话的基本是缺乏较多检索经历的外行,而且针对的是搜索引擎(他们也不会用专门的学术文献检索系统)。
要明白:你的检索目的是什么,是找到明天的气象信息,还是近期的商业促销信息。
对于前者,你检索到1条准确的就行,这很容易;对于后者,你检索到1万条有关冬装打折的消息或许也嫌它们是垃圾,因为你感兴趣的是伊利牛奶。
说google容易检索出什么垃圾信息的,往往是首先因为有些自以为是的“研究人员”基于促销自己的什么能把“垃圾信息”过滤的原创技术的需要。更多的外行冒充专业人员也跟风以为有人能做得更好。
js对这些很不屑,没做过几道菜、没吃过几道菜也算大厨?也冒充评委平头论足?建议听听“我完全没有任何理由理你”。
本质上说,在图论上的NPC问题没解决,人工智能无法真正实现之前,那些优化算法的作用很有限。
有空接着写。
限于个人浅薄认识,上述内容中肯定也有很多一定是js也想错了,还请发现后告诉我,帮助我完善和提高,谢谢!