森特搜索引擎

来源:百度文库 编辑:神马文学网 时间:2024/04/28 09:56:03


森特搜索引擎是杭州森特信息技术有限公司开发的一套以Internet信息抓取为目的的跨平台软件,主要用于指定网络信息的抓取,实现在用户自定义的规则下,自动从互联网上的http服务器(或其它服务器)上抓取指定信息,并自动从网页中分析解析出信息并整理存为数据库格式。


森特搜索引擎――信息抓取系统 的工作流程分为四个阶段:
◎  信息规划:设定信息来源,确立信息获取任务;
◎  信息采集:从互联网抓取网页信息,并进行标准化分析处理;
◎  信息分析:对采集的信息进行数据挖掘,包括自动分类、自动提取关键词和自动消重;
◎  信息管理:按照用户的需要将信息及分析结果存储下来。

森特搜索引擎-信息抓取系统主要包括信息采集、信息检索过滤和信息发布三大模块,主要有如下的功能特色:
◆对目标网站进行信息自动抓取,支持各种标准格式信息资源的采集,如 HTML页面、文本信息、图片等。
◆抓取速度快,系统采用多线程并发搜索技术,用户可根据需要设置并发线程的数目。
◆搜集到的信息可以按照不同的分类方式,并且保留原文链接。用户可以按照日期、来源、标题进行检索、浏览。
◆ 可以对抓取的信息定义关键字,对网页内容进行过滤,并可进行组合检索和二次检索,检索到的信息可以进行数据批量导出。
_xyz