智能聚合的对象与方法-蜀中流氓

来源:百度文库 编辑:神马文学网 时间:2024/04/28 13:46:03
对聚合的层级做了一个划分,可以区分为信息和应用的关联、以个人为中心的个性化和人的聚合,本篇文章将对聚合的对象进行一个分析,并初步探讨可以采用什么样的方法进行聚合。
就聚合对象而言,实际上互联网上所有的东西都是可以聚合的对象,但从聚合的难度和不同的聚合方法来看,我们可以将其做一个大致的区分:
1、文本信息,包括所谓的看到的新闻、blog、pdf文件等等,这类聚合对象的特点是主体为短文本(区别于书籍和小说连载等),具有主题内容的;
2、书籍和小说连载等长文本;
3、产品,如手机、鞋帽、软件等等;
4、图片;
5、音频、视频;
6、人,可以表现为blog、个人主页、社区id等;
7、数据;
本篇文章主要对前六项的聚合进行一个初步的思考,而数据挖掘的东西,已经有很多专门的进行分析,虽然前五项的聚合是需要用到数据挖掘,但这里不单单对数据的聚合进行分析。
首先我们看看文本的聚合,现在通常采用的方式是手工的方法,你看看各大网站的相关文章基本上都是人工作的,还有一种是采用tag的方法,比如在sohu的blog上就用到了tag系统,但tag系统存在瞒多的缺陷,可以参见《 别相信用户给你奉献的tag 》。互联网上存在最多的就是文本信息了,人工的方法显然不能适应,用户奉献的tag系统又存在如此多的缺陷,如何去弄呢?其实已经有办法解决,具体可以看看service.360doc.com,但上面说得不够清楚,其主要要用到的技术是人工智能方面的算法,让机器去理解文本的意思,在此基础上可以实现文本的自动聚类、分类和信息的关联。现在最前沿的技术已经能够达到应用级的水平,www.360doc.com这个网站就是采用这个系统,实现了运用机器对于文本的分析,实现了全站的自动运行。对于文本的聚合,可以实现什么样的功能呢?比如我写完这篇文章,那么主题相关的文章就能自动到一块来,最近有什么样的热点问题,有什么样的热点讨论,都可以通过聚类的方式展现出来,陈中做一个专题,也不用这么费劲了,说到底解放低级人工,实现文本信息的挖掘。这块要去谈,可以谈非常非常之多,以后我会以专门的文章来谈这个事情。
所以智能聚合的第一个方法就是基于对文本语义理解的人工智能技术。
第二个方法是tag方法。tag方法现在广泛用于文本、产品、图片、视频的整理之中。刚刚说了,tag有众多的缺陷(那篇文章没有提到的问题就是每个人的tag含义不一样,那集合起来就存在tag歧义的问题,这对于海量信息的组织来说,存在逐级放大的效应,导致最后基本不能用),那怎么办呢?其实很多领域只是有限的信息,所以对于有限的信息来说,采用tag系统的方法是没有问题的,大不了你自己多弄几个编辑就可以搞定,在没有更好的方法代替的情况下,也可做权宜之举。
第三个方法,其实近似于tag的方法。我们看到很多聚合的对象其实没有什么tag,那怎么办?可以采用的方式是分析对象的周边文字,比如书籍你可以分析目录和摘要,图片和视频你可以分析标题和周边的文字,但这种文字的准确性有多高,就不太好说了,所以当你现在运用不管谁的视频搜索,你都可以看到结果之糟糕。
第四种方法,近似于图书馆的传统办法,分类的数型结构,比如电影,你可以按导演、演员、类型等等来弄,歌曲也可以这样,对于有限的对象,人工的方法就能搞定了,这也是现在一些产品聚合通常采用的方法,效果还蛮不错,当然,这算不上智能聚合的范畴了。
第五种方法,对于音频来说,你可以直接分析音调,甚至将其转化为文字,对于图片你可以分析像素,对于视频你可以分析里面的一个个图像,当然,这方面的广泛应用还没完全展开大众化应用,有一些产品也是停留在实验室里的。
第六个方法,就是基于社区力量的数据挖掘,这里面也有点社会化搜索的意思在里面,其基本的理念在于人以类聚,物以群分。比如同一个人,买一个东西,还买了另外一个东西,那么我们就认为这两个东西存在着某种联系,如果你同这个人有某种类似,你买了一个东西,那我理所当然会认为你会买另外一个东西。在市场研究中,我们经常采用这种方法,就是进行人群的细分,以找出其中的相似之处,供营销之用。而在互联网应用之中,我们将消费者的种种信息记录下来,那就可以供我们做数据挖掘之用,而这种挖掘就构成了互联网应用中的社会化聚合,这是现在很多互联网应用致力于做的东西。对于这个聚合,还可以做进一步的探讨,在后面,我也会以专门的文章来进行进一步的阐述。
第七个方法,也是一点点猜想,比如衣服的聚合,如果我知道你的人体数据和你对风格的偏好,那么我就可以来聚合不同的衣服,这是针对个人的聚合,所需要知道的是个人本身的需求,而这些需求可以从你的言语,你的行为,你的人口学特征,你的心理偏好等等进行综合的分析。一方面通过社会化的分析,另一方面通过对人本身的分析,我们可以进行人的聚合。
第八个方法,就是基于时间空间的聚合,这方面的应用就是涉及到电子地图的领域,这方面不做特别的探讨。
……
总的来说,传统的图书馆分类的方法,在特定的领域和对象条件下,得到很好的应用,不过已经走到极限;tag聚合和类似tag聚合的方法在目前得到了广泛的应用,但存在众多的缺陷;社会化的聚合目前正在特定领域进行应用,具有很好的发展前景;基于文本语义分析的智能聚合才刚刚开始,是未来发展的一个重要方向;基于时间空间的聚合当然有美好的前景,特别是你放到3g的背景之下;其他对于音视频本身分析所带来的聚合,和对人深刻分析的聚合,还在探讨之中。