庄帅:分词:百度搜索有技术么?

来源:百度文库 编辑:神马文学网 时间:2024/04/28 21:57:51
最近看了几篇关于百度“分词技术”的文章,这两天就开始留心文章内所举的例子,自己也在百度和GOOGLE进行实践。结果让我对百度的未来忧心忡忡。我目前都不没有入SEO的门,所以暂时只能以自己的认识做些肤浅的描述,希望我的担心是多余才好。
首先,我们来简单说一下“分词技术”,这个技术是搜索领域非常关键的技术之一。可关于百度该项技术的分析却让我得到结论:百度在分词方面没有技术可言,而只是有着两部甚至几部数据量越来越大的“字典”而已!
这里我也来举个例子,由于最近我的几个亲戚介入了广西北海的一个投资项目,我担心是骗局,于是我在百度搜索“北海投资骗局”,出来的结果如以下链接:http://www.baidu.com/s?ie=gb2312&bs=%B1%B1%BA%A3%CD%B6%D7%CA&sr=&z=&cl=3&f=8&wd=%B1%B1%BA%A3%CD%B6%D7%CA%C6%AD%BE%D6&ct=0 从链接里面我们可以看到,你要在这个结果里找到有用的信息,看来你是要失望了,关于北海投资骗局的信息好像都没有看到。而红色的字大家就可以看到“百度字典”在起作用:在“北海投资骗局”这个搜索条目里,被拆分为“北海”和“投资骗局”,这样的拆分显然就很难让我们得到关于在北海的骗局,而会得到关于“北海”的普通信息和关于“投资骗局”的信息,而投资骗局这个关键字导致的结果那就是全国各地都有了,那我们还输入“北海”做为范围界定就一点意义都没有了! 结论:百度获取有针对性意义的信息可能性很小,我这里只是举了一个例子,大家可以根据这个思路多试几个,结果大致是这样。
那么我们再来看看GOOGLE的表现:http://www.google.cn/search?hl=zh-CN&q=%E5%8C%97%E6%B5%B7%E6%8A%95%E8%B5%84%E9%AA%97%E5%B1%80&btnG=Google+%E6%90%9C%E7%B4%A2&meta= 列出的全部是关于“北海投资骗局”的信息,很有帮助,大家可以自己看这两种明显的区别,就会深层次发现这两个公司在技术实力上的差距不是一般的大了!
如果按照这样的结果,我很想问一下百度:在你成为国内老大的时候,你的技术进步了多少,做了多少真正为网民考虑的事情?给中国甚至以后全世界能够提供多少有用的信息!?我本来在看那些文章是持怀疑态度,而且一直以来都是非常拥护百度的,但这些个关键字(词)实践下来,担心却是以日俱增!并且在往后的工作中,可能会应了那句话:新网民用百度,老网民用GOOGLE了!
但百度现在占据着中国搜索市场70%的流量却是不争的事实,国内许多SEOer也是在利用这个“字典”分词功能来从百度得到更多流量,然后将流量转换成金钱,最后导致了大批的垃圾站点的出现和网站投机心理,这样的连锁反映多多少少影响着中国互联网业的健康发展。也许我这样说似乎有点过于夸张,但似乎事实如此。而百度不知道能不能将精力放在技术的研发上,赶超GOOGLE,而不是放在治标的“K站、不收录新站”上呢?我们试目以待……