Keven’s Blog 数图研究 Folksonomy、Taxonomy与Ontology

来源:百度文库 编辑:神马文学网 时间:2024/04/30 03:25:13
Folksonomy、Taxonomy与Ontology
归类于:笔记 — keven @ 9:39 pm
这也是个谈滥了的题目。
然而感觉有必要整理、汇总一下。
促使感到有必要整理一下的原因见文末。
Taxonomy没有必要多谈,属于“圈子里”的小众学问,有大量的成熟研究。图书馆学家们很有话语权。
Ontology计算机专家正在搞,特别是语义Web的那些家伙们,欧洲最为疯狂,目前有数十亿欧元的项目在做。
Folksonomy为什么生命力如此旺盛?让“专业人士”颇费思量。
网页、图片、书签、音乐/视频片段乃至其他任何“细粒度”的信息资源需要标识,并用“元数据”进行描述,是基本需求。
这种细粒度的资源姑且称为“微资源(micro-resource)”。由于微内容(microcontent)已经有特殊含义,一般指由某种微格式(microformat)编码的内容,或者最起码已经具有id,能够独立管理的内容。
而对微资源的这种操作需求往往在现在的Web(Web1.0)上没有很好的方式或者工具能够满足。数字图书馆的微观结构包含作为微资源的数字对象,如Kahn/Welinsky结构(handle-metadata-data/link)即是一种微资源结构。Warwick Framework也是。
以下对微资源的功能需求进行简单总结:
微资源的产生(例如:做网络书签?); 微资源需要标识(permanent id?); 微资源需要描述(metadata); 微资源需要重组(聚合); 微资源的重用; 微资源的呈现(tag cloud?); 微资源的管理和利用需要工具(flickr/del.icio.us/blinklist/365key…)。
可以看出,我把folksonomy的产生和应用与微资源的产生和应用是紧紧联系在一起的。
那么,从专业角度考察,folksonomy有哪些发展方向呢?
考察folksonomy:
Folksonomy由tag组成。 Tag在folksonomy中是微资源的指代物。 通过检出tag而检出微资源。 Tag是平面的。 Tag是随意的。 Tag云图反映了tag的权重。
Tag的发展方向(有些目前已经有了,但还不完善):
Tag可以排序(除了目前的字顺和权重,还有多种形式,包括动态形式,如结合相关反馈、合作过滤、点击次数、甚至类pagerank等); Tag可以层级化(层次关系,例如del.icio.us目前支持的tag类目); Tag可以聚类(反映了资源之间的关系;经常在一起的tag具有较为密切的关系,等等); Tag可以规范化(同义词、反义词归并指代;用代属分参关系标注等)。
这些发展,与应用的成本/边际效用/方便性有关。
这些发展,到了一定程度,就不是folksonomy了。
Folksonomy并非绝对“自由”,并非没有体系,只是做标注(tagging)的人没有意识到(自己的体系)而已。
Folksonomy的一个极端形式是Topic Maps (ISO13250);
Topic Maps可以看成一种Ontology。
Taxonomy是一类概念体系分类方法的总称,不具有严格的规定。但也可以看成一种不完整的Ontology。
对应于极端自由的Folksonomy,极端规范的、形式化的概念体系是Ontology。
Tom Gruber说:
Ontologies are enabling technology for the Semantic Web. They are a means for people to state what they mean by formal terms used in data that they might generate or consume. Folksonomies are an emergent phenomenon of the social web. They are created as people associate terms with content that they generate or consume. Recently the two ideas have been put into opposition, as if they were right and left poles of a political spectrum.
Tom Gruber又说:其实半形式化就够了,就能够起到很大的作用,Ontology的绝对形式化是做不到的。(大意如此)
半形式化的Folksonomy能够对微资源的语义标注(annotation)带来革命性的影响。
“半”到什么程度很难说。
或许一点点就够了,就可能起到很大作用。
例如同义词(一个词的不同写法:web2/web20/web2.0/web 2.0)的自动后台归并?
要知道A little semantics goes a long way.
根本的:需要工具支持,需要2.0应用的支持。
前一阵(《图书馆杂志》2月号)发了一篇讲taxonomy的,很好。今天审到一篇投稿,讲folksonomy的,也很好,leon已经跟王主编说了,快发。
这些投稿其实都没有本文看得深,看得透(嘿嘿,文章是自己的好,;-),吹一个)。
然而本文的许多观点需要实验佐证。实验需要语料,需要样本,需要系统,需要代码、需要比较数据。
图书馆学属于人文科学,可以拍脑袋,因而不需要。
而计算机科学的论文需要。
这就是科学和学科的差别。
参考:http://gigerblog.blogspot.com/2006/02/folksonomy.html