乐思文本采集系统

来源:百度文库 编辑:神马文学网 时间:2024/05/01 08:44:55
乐思文本采集系统  一、 主要功能
乐思文本采集系统的主要功能为:根据用户自定义的任务配置,批量而精确地抽取目标文本文件中的内容,转化为为结构化的记录,保存在本地数据库中。 特别适用于网络博客/Blog文章采集,RSS/ATOM XML内容采集,Text/CSV内容采集,任意格式XML采集,自定义结构文本内容采集等。功能示意图如下所示:

二、 系统特点
支持远程HTTP或者FTP服务器上的文本文件内容抽取
支持本地文本文件内容抽取
支持常用的文件格式: *.TXT, *.CSV, *.XML, *.HTM
支持任意后缀名的文本文件
内置六种记录块分割方式,几乎可以支持任意格式数据的抽取
支持命令行格式,可以Windows任务计划器配合,定期抽取目标数据
支持记录唯一索引,避免相同信息重复入库
支持数据库表结构完全自定义
保证信息的完整性与准确性
支持各种主流数据库,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等
三、 运行环境
操作系统:Windows XP/NT/2000/2003
内存:最低32M内存,建议128M或以上
硬盘:最少20M空余硬盘空间