北京六智信息技术有限公司(360doc

来源:百度文库 编辑:神马文学网 时间:2024/05/03 06:39:02
 北京六智信息技术有限公司(360doc)是一家致力于中英文智能文本处理技术(NLP)的研究与应用的高新技术企业。
    核心技术团队由一批具有多年研究与应用经验的博士、硕士构成,经过多年研究,将网络信息获取技术、人工智能中的机器学习和神经网络、统计学、数据库技术、搜索引擎技术有效融合,率先推出了信息自动采集、语义理解及文本挖掘、智能搜索等一整套360doc智能信息聚合引擎(360doc ICE )技术产品,可在竞争情报系统、知识管理系统、行业门户网站、网站内容系统、垂直搜索、科研等领域广泛应用,为用户在信息采集,资源整合方面节约大量的人力与资金。
    “超越搜索、智能聚合”是北京六智信息技术有限公司永远的技术追求!

360doc产品与服务    360doc ICE系统分为三个层次:信息采集器(数据采集)、信息智能加工引擎、信息检索引擎。 针对不同的数据格式,360doc ICE系统采用不同的手段与方式,将各数据孤岛的信息采集过来,用于资源平台的整合与使用。360doc网络爬虫可以完成对互联网信息的采集,文档信息采集器可完成对现有文档信息的采集,数据库连接器支持对于各种关系数据库的自动数据采集和加载入库。   
    对采集来的信息,智能加工引擎可自动进行抽取关键词、生成摘要、文章关联、文章分类、文章聚类等一系列处理操作,配合360doc高精度检索引擎,用户可随时查询结果。

360doc技术特点◆ 全自动化 从后台的信息采集、核心功能的提供,到前端用户个性化信息推送,都实现了完全的自动化。配置之后可以完全自动化地运行,完全不需要人工干预。

◆ 处理信息的多元化 随着互联网的发展,我们周围充斥着越来越多的非结构化信息,仅靠数据库存储单一的结构化信息格式已无法满足我们的需求。有调查表明,当今有80%的企业运作都是建立在非结构化信息基础之上,传统的人工处理和分类方法已经无法满足要求。 360doc以完全自动化的方式处理、操作非结构化信息,可以处理的信息格式有: 微软Office文档,例如Word,Excel,PowerPoint等等; Adobe PDF文档; 各种文本文档,例如TXT,RTF,HTML,XML,EML等等; 各种数据库中的文本信息。

◆ 人与信息之间的互动 人与信息之间的互动是360doc技术最为突出的特点之一。 360doc 技术建立在对信息内容本身的概念理解之上,通过对内容的理解,主动的将相关信息进行匹配,在查找信息的同时,不光能够帮助用户找到所需要的信息,还可以将合适的信息自动推送给用户,这样用户不仅仅可以查找信息,信息也可以自动去匹配用户,真正实现了人与信息之间的互动。

◆ 高性能、高效率 360doc不光拥有一流的系统稳定性,其处理信息的效率也很高,单条信息的处理时间为毫秒级,即便你拥有海量信息,也能确保时时生成处理结果。

360doc网络爬虫 --- 自动抽取互联网信息,并结构化入库   随着网络的迅速发展,万维网成为最大的信息载体,由于关键信息都是以半结构化或自由文本形式存在于HTML网页中,因此无法直接利用,如何有效地提取并利用这些信息成为一个巨大的挑战。
   360doc网络爬虫,可根据用户自定义的任务配置,批量、精准地自动抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,实现因特网上信息的快速获取。

360doc网络爬虫特点◆多线程支持:采集支持多线程,实现快速信息采集;
◆分布式支持:可组成采集服务器集群进行大规模数据采集;
◆支持采集报警:通过管理监控模块,能够对发生变化的信息源网站进行自动提示和报警;
◆支持中英文语种;
◆精确采集定位策略:可以指定采集的网站的具体栏目;
◆支持增量更新:每次只采集上次更新后新生成或更改的网页,保证信息更新的效率;
◆灵活设定更新时间及间隔:对采集网站进行安排和计划,采用定时和循环两种运行机制,保证系统的性能稳定和采集效能最大化;
◆支持Proxy代理服务器;
◆格式化精确抽取:精确抽取用户设定的有用内容,如:文章的标题、作者、日期、正文、来源等,去除页面上的无用信息,如:页面上的广告、版权、栏目等,抽取结果无需二次加工;支持文章中的图片、图表的抽取;自动进行文章列表翻页和文章页翻页,自动进行多页拼接;
◆支持采集排重:支持多种方式排重策略,可根据URL、站点、作者等属性值实现信息排重,也可根据相关性原则进行数据排重,对内容相似度达到某一阀值的网页进行排重操作。
图1 设定爬取站点
图2 爬虫抽取结果文章列表
图3 查看文章抽取结果