北京六智信息技术有限公司（360doc

来源：百度文库编辑：神马文学网时间：2024/05/03 06:39:02

北京六智信息技术有限公司（360doc）是一家致力于中英文智能文本处理技术（NLP）的研究与应用的高新技术企业。
    核心技术团队由一批具有多年研究与应用经验的博士、硕士构成，经过多年研究，将网络信息获取技术、人工智能中的机器学习和神经网络、统计学、数据库技术、搜索引擎技术有效融合，率先推出了信息自动采集、语义理解及文本挖掘、智能搜索等一整套360doc智能信息聚合引擎（360doc ICE ）技术产品，可在竞争情报系统、知识管理系统、行业门户网站、网站内容系统、垂直搜索、科研等领域广泛应用，为用户在信息采集，资源整合方面节约大量的人力与资金。
    “超越搜索、智能聚合”是北京六智信息技术有限公司永远的技术追求！

360doc产品与服务    360doc ICE系统分为三个层次：信息采集器（数据采集）、信息智能加工引擎、信息检索引擎。针对不同的数据格式，360doc ICE系统采用不同的手段与方式，将各数据孤岛的信息采集过来，用于资源平台的整合与使用。360doc网络爬虫可以完成对互联网信息的采集，文档信息采集器可完成对现有文档信息的采集，数据库连接器支持对于各种关系数据库的自动数据采集和加载入库。　　
    对采集来的信息，智能加工引擎可自动进行抽取关键词、生成摘要、文章关联、文章分类、文章聚类等一系列处理操作，配合360doc高精度检索引擎，用户可随时查询结果。

360doc技术特点◆ 全自动化从后台的信息采集、核心功能的提供，到前端用户个性化信息推送，都实现了完全的自动化。配置之后可以完全自动化地运行，完全不需要人工干预。

◆ 处理信息的多元化随着互联网的发展，我们周围充斥着越来越多的非结构化信息，仅靠数据库存储单一的结构化信息格式已无法满足我们的需求。有调查表明，当今有80%的企业运作都是建立在非结构化信息基础之上，传统的人工处理和分类方法已经无法满足要求。 360doc以完全自动化的方式处理、操作非结构化信息，可以处理的信息格式有：微软Office文档，例如Word，Excel，PowerPoint等等； Adobe PDF文档；各种文本文档，例如TXT，RTF，HTML，XML，EML等等；各种数据库中的文本信息。

◆ 人与信息之间的互动人与信息之间的互动是360doc技术最为突出的特点之一。 360doc 技术建立在对信息内容本身的概念理解之上，通过对内容的理解，主动的将相关信息进行匹配，在查找信息的同时，不光能够帮助用户找到所需要的信息，还可以将合适的信息自动推送给用户，这样用户不仅仅可以查找信息，信息也可以自动去匹配用户，真正实现了人与信息之间的互动。

◆ 高性能、高效率 360doc不光拥有一流的系统稳定性，其处理信息的效率也很高，单条信息的处理时间为毫秒级，即便你拥有海量信息，也能确保时时生成处理结果。

360doc网络爬虫 --- 自动抽取互联网信息，并结构化入库　　随着网络的迅速发展，万维网成为最大的信息载体，由于关键信息都是以半结构化或自由文本形式存在于HTML网页中，因此无法直接利用，如何有效地提取并利用这些信息成为一个巨大的挑战。
　　 360doc网络爬虫，可根据用户自定义的任务配置，批量、精准地自动抽取因特网目标网页中的半结构化与非结构化数据，转化为结构化的记录，保存在本地数据库中，用于内部使用或外网发布，实现因特网上信息的快速获取。

360doc网络爬虫特点◆多线程支持：采集支持多线程，实现快速信息采集；
◆分布式支持：可组成采集服务器集群进行大规模数据采集；
◆支持采集报警：通过管理监控模块，能够对发生变化的信息源网站进行自动提示和报警；
◆支持中英文语种；
◆精确采集定位策略：可以指定采集的网站的具体栏目；
◆支持增量更新：每次只采集上次更新后新生成或更改的网页，保证信息更新的效率；
◆灵活设定更新时间及间隔：对采集网站进行安排和计划，采用定时和循环两种运行机制，保证系统的性能稳定和采集效能最大化；
◆支持Proxy代理服务器；
◆格式化精确抽取：精确抽取用户设定的有用内容，如：文章的标题、作者、日期、正文、来源等，去除页面上的无用信息，如：页面上的广告、版权、栏目等，抽取结果无需二次加工；支持文章中的图片、图表的抽取；自动进行文章列表翻页和文章页翻页，自动进行多页拼接；
◆支持采集排重：支持多种方式排重策略，可根据URL、站点、作者等属性值实现信息排重，也可根据相关性原则进行数据排重，对内容相似度达到某一阀值的网页进行排重操作。
图1 设定爬取站点

图2 爬虫抽取结果文章列表

图3 查看文章抽取结果

北京六智信息技术有限公司（360doc 北京六智信息技术有限公司（360doc 360doc--北京六智信息技术有限公司六智360doc--北京六智信息技术有限公司北京中油瑞飞信息技术有限公司! 六智360doc--成功案例知识媒体——媒体研究的新视角_北京师科阳光信息技术有限公司 360doc 360doc 360doc 360doc 360doc 360doc 360doc 成都中嵌信息技术有限公司 360doc个人图书馆360doc 360doc----个人图书馆 360doc----个人图书馆 360Doc----个人图书馆 360doc小组介绍 360Doc----个人图书馆 360doc介绍发现360doc 360Doc----个人图书馆