网络搜索

来源:百度文库 编辑:神马文学网 时间:2024/04/28 16:58:40
行业搜索引擎简介演示
WSSE 是北京西方源点软件技术有限公司刚刚开发完成的一款新型web搜索引擎。主要用于建设行业纵向专业搜索引擎。
WSSE致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, WSSE必须能够做到:
每个月取几十亿网页
为这些网页维护一个索引
对索引文件进行每秒上千次的搜索
提供高质量的搜索结果
以最小的成本运作
随着互联网技术和互联网应用的发展,网上内容极大丰富,信息海量化正在导致信息垃圾化,信息本身的价值正在被创造海量信息的网络本身所消减。搜索引擎的价值就在于从海量的信息中搜集、分析、甄别、加工、整理、提取出我们所需要的有用的信息。
一、 建设行业主题搜索引擎的必要性
1、搜索催生互联网革命
互联网发展的初期,强调信息本身的价值,认为只要解决信息资源的短缺问题就会带来价值提升;而经过十多年发展的今天,则认为信息本身并不稀缺,只有解决了信息的甄别、加工、提纯和挖掘,只有从海量形如垃圾的信息中发现真正的知识,才能带来价值的提升。
互联网发展的重心和焦点经历了网络、沟通、内容和搜索这么几个阶段:互联网的发展促进了信息沟通,信息沟通的便利促进了网上内容的丰富,网上内容的丰富又促进了搜索引擎的发展和应用。这个自然而然的发展过程提示我们:在网上内容极大丰富的今天,搜索引擎将比以往任何一个时候都更加重要。
在网络尤其是网上内容已经极大丰富的今天,忽视或者不充分重视这一动向必将付出极大的代价,不论他是从事网络媒体,还是电子商务。
搜索催生的互联网革命的第一个标志是互联网已经从“内容为王”(在经历了“网络为王”和“沟通为王”之后)走进“搜索为王”的时代。是的,任何对搜索无动于衷或者投入不力的网站,无论在内容时代如何杰出,都必然为搜索催生的互联网革命所淘汰。
除此以外,搜索催生的互联网革命还表现在互联网的“商务模式”和“业务形态”等方面。
商务模式:
随着互联网发展的焦点从“内容”升华到“搜索”和“搜索增值服务”,互联网商务模式的基本结构也必然随之发生根本性的变革——在新的层次上回归yahoo曾经的以搜索为基础的商务模式。
搜索将不再只是网站(特别是门户网站)一个附属的甚至可有可无、锦上添花的工具,搜索将成为网站一切服务和功能的基础,将居于网站商务模式架构的中心位置;离开搜索,网站的服务和功能至少不能以有竞争力的满意度提供。
互联网商务模式变革的另一支力量来自专业搜索引擎(如google)的“综合化”(如前所述)。以强大的搜索引擎为技术支撑,这些专业搜索引擎将大力扩展和整合,发展一系列以搜索为核心和基础的协同业务——如google推出(包括收购)的广告、新闻、blog和Email等,从而构建崭新的具备强大竞争力的互联网商务模式。
业务形态:
网上搜索或搜索引擎改变了众多互联网业务的面貌,也创新了一批原来所没有的新的互联网业务,搜索催生了互联网业务形态的巨大变革。
网络广告的历史可谓早矣,即使在中国也有十年的历史。然而,直到2001年前后,网络广告依然没有摆脱传统广告的基本模式,依然与传统的电视广告、报刊广告没有本质上的区别,唯一的不同仅仅表现在媒体上——从传统媒体到网络媒体。网络广告的真正创新是从与搜索的结合开始了,有了搜索,网络广告才第一次真正有了属于自己的业务形态或商务模式,才第一次有可能从根本上与传统广告区别开来,才第一次踏上向传统广告梦寐以求而不得其门的广告“精准化”的历程。竞价排名广告是这样,内容关联广告也是这样......。
Google、百度等一大批专业搜索引擎凭此敲开了互联网财富之门,开创了搜索引擎引领互联网发展的新时代。
变革所及已经超出网络广告的范围:基于搜索引擎的信息增值业务——竞争情报系统、阿里巴巴网商搜索、8848的购物搜索、google的基于搜索和网络广告的大容量电子邮箱业务,等等。
事实上,几乎所有互联网业务形态都或多或少地在搜索的巨大影响下或者改变形态,或者被创新出来。
2、搜索的价值
电子邮件和搜索引擎长期以来一直是两项最受欢迎、最热门的互联网业务。中国互联网络信息中心(CNNIC)截止2004年6月底的统计表明,互联网用户使用电子邮件和搜索引擎的比率分别为84.3%和64.4%,在30余种网络服务中高居前三位。用户对搜索引擎的满意度也很高,其中,对搜索引擎服务表示非常满意和比较满意的分别为26.9%和52.5%(居各项服务之首),表示不太满意和很不满意的仅为2.8%和0.6%(居各项服务之末)。搜索引擎在互联网世界的重要地位由来已久。当年,Yahoo作为门户网站奇迹般崛起所仰仗的正是搜索引擎。在日益复杂的互联网世界里,面对日益繁杂和海量的网上信息,Yahoo的搜索引擎曾经为人们在互联网世界遨游、冲浪提供了几乎无可替代的工具和手段。Yahoo在通过搜索引擎为用户提供价值的同时,也极大地赢得和提升了自身的价值。
今天,搜索引擎的地位不仅没有被削弱,反而更加强化了。继Yahoo之后,Google又以其搜索引擎的技术创新、竞价排名和专业风格等创造了新的奇迹。在国内,百度、慧聪也在很短时间里凭借搜索引擎取得很大成功。随着互联网行业的持续发展,随着搜索引擎技术和业务模式的持续创新(尤其是与网络广告的整合和赢利模式的创新),2002年下半年以来,搜索引擎又一次引起了全球互联网行业的高度关注,一场由搜索引擎创新引发的互联网行业大变局正在酝酿和发生之中。
历史和现实一再证明:搜索是互联网世界的制高点。
这是一个无可争议的事实。这个事实也是另一个事实的必然结果,这就是:世界正在通过互联网非常急速地从“信息时代”走进“信息经济时代”。今天,如果还在津津乐道于“信息时代”,还在不知疲倦地重复“信息就是金钱”的口号,肯定(至少在许多地方)是过时了。“信息时代”与“信息经济时代”的重大区别在于:前者强调信息本身的价值,认为只要解决信息资源的短缺问题就会带来价值的提升;后者认为信息并不稀缺,相反,信息技术特别是互联网的出现正在使信息泛滥,以前视为宝贝的信息正在走向“垃圾化”,只有解决了信息的甄别、加工、提纯和挖掘,只有从巨量的、形如垃圾的信息中发现真正的知识,才能带来价值的提升。
Yahoo和Google的成功说明深刻理解互联网并占据其制高点是多么的关键。什么叫深刻?深刻就是能够透过事物暂时和表面的现象把握长久和内在的东西。互联网是一种信息提供和传递的工具,是一种新的信息媒介,这是显而易见的。但是,隐藏在这些显而易见的表象背后的则是一些非常不同的东西:互联网的发展正在导致信息提供和传递的“公共化”,信息提供和传递的商业价值正在消减,事情的关键不是能否快速、海量地提供和传递信息,而是能否在期望的时间和地点,以期望的方式和成本,获取所期望的信息;也就是说,商业价值的重点正在从信息的“发送端”向“接收端”延伸和转移;或者说,在当今的互联网上,帮人有效地接收信息较之帮人有效地发送信息至少同等重要。
3、未来发展
搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用户,有很好的经济价值,所以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,并出现了很多值得注意的动向。
提高信息查询结果的精度,提高检索的有效性—用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。解决查询结果过多的现象目前出现了几种方法:一是通过各种方法获得用户没有在查询语句中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些不相关,通过多次交互逐步求精。二是用正文分类(Text Categorization)技术将结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类聚或内容类聚,减少信息的总量。
基于智能代理的信息过滤和个性化服务—信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型(如Web知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景、兴趣、行为、风格)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤),并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供个性化的服务。智能代理可以在用户端进行,也可以在服务器端运行。
采用分布式体系结构提高系统规模和性能—搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。但当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种分布式方法,以提高系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索,以提高检索的速度和性能。
事实上,搜索引擎要解决的基本问题仍然准、全、快。其中“快”是最好解决的,通过增加设备、带宽等网络资源,能大体上满足用户的要求。而要解决“准和全”的问题就没有那么简单了。除去改进算法、提高系统容量外,更加有效的方法是开发建设所谓垂直内容的搜索引擎—行业主题搜索引擎。
在Google、百度等专业搜索引擎服务商在搜索服务行业形成垄断地位后,留下的更加宽广的发展空间正是向深度发展的行业主题搜索引擎。
二、 建设行业主题搜索引擎的可行性
到目前为止,国内还没有被广泛认可的专注于行业的专业搜索引擎。而行业所具有的从业人员多、厂商多、产品多、专业化程度高、知识更新快等特点,决定了该行业对互联网的依赖程度高,从业人员需要通过互联网获取各种专业知识、专业信息,用户需要通过互联网享受各种服务。
符合互联网发展方向—互联网正快速的从“内容”朝着“搜索”的方向发展,网站本身的体系结构也逐步的从内容为主、搜索为辅向搜索为主、内容为辅过渡;
相关技术基本成熟—在建设行业搜索引擎的第一阶段,我们建议尽量采用成熟技术,减少技术风险。搜索引擎开发建设中涉及到网页蜘蛛、关键词管理、目录分类、索引排序、信息检索等技术;
建设速度快—采用元搜索与目录搜索混合技术方案,能大大加快系统建设速度。包括软件开发调试、行业关键词库建设和行业目录分类库建设等工作,预计六个自然月能完成全部软件和调试工作;
市场潜力大—行业涉及的设备厂商和增值服务厂商众多,最终用户量大,因此未来的市场潜力巨大。因行业从业人员和其最终用户对互联网(信息)的依赖较大,因此,行业搜索引擎的开发建设,能大幅提高网站的人气和网站访问流量;
投资风险小—可采用分阶段投资、滚动开发的模式,也可采用合作开发运营的模式,能有效的降低投资风险。
三、 行业主题搜索引擎建设的关键技术
开发、建设行业主题搜索引擎涉及到多项复杂的计算机技术,包括网络技术、分布式处理技术、多文字解析处理技术等。
科学准确的行业主题关键词库—关键词库建立的好坏,在一定程度上决定了该行业搜索引擎的成败。索引库的建立、中文目标词的切分等都依赖于关键词库。关键词库的规模与准确性,直接决定搜索服务的精准和全面(限定范围的全!);
重点突出的网站目录集合—在有限资源投入的前提下,必须限定网络蜘蛛的搜索范围,从而保证信息的质量,并做到及时更新;
高效的元搜索引擎技术—为弥补有限范围搜索的不足,采用元搜索技术,直接其它搜索引擎中抓取信息,并进行必要的分析、过滤、排序处理,存入索引数据库。元搜索引擎中采用先进的数据排序、匹配算法,剔除重复数据;
快速实用的信息检索算法—采用合理切分、分布检索技术,保证检索的快速准确;
模块化、分布式体系结构—整个应用软件由定向信息采集模块、目录网站信息采集模块(蜘蛛程序)、信息分类处理与索引模块、检索信息分析模块、模式匹配处理模块、查询结果输出处理模块等组成。关键模块均支持分布式处理。