东拉西扯:tag与关键字

来源:百度文库 编辑:神马文学网 时间:2024/04/28 02:59:00
东拉西扯:tag与关键字
这是jiangwei在我的webnote上的留言:
国内并非没有人研究tag技术,以《Tags,无序,分类和家族相似》这篇文章为例,我用计算机自动提炼的tag如下:信息分类 检索语言 分类检索 Tag 维特根施坦 标签△ 关键字△ 逻辑△ 家族△ 本质 实证主义△ ,觉得计算机提炼得如何?特别指出的是:信息分类是原文中没有的词语,这个tag是计算机自动抽象概括出来的主题。
这是我的回复:
电脑提炼的只能算关键字或主题词,不是tag。比如同样是你提到的那篇文章,如果是人来给它设置tag,可能会是:tagsresearch, opinion, folksonomy, etc.
tag表现的是普通人的思维而不是机器的思维,它要求的不是精确,而是方便自己找到。
我之前也说过,“很多人习惯性地把tag理解成关键字,实际上tag不是关键字。”比如机器就没有办法提取一张照片的关键字,但人可以给它设定一个或多个tag。
zheng也谈到过tag与关键字的问题:
标签和关键词比起来,除了更近乎个人的知识体系之外,在功能上也强大的多。标签和目录在功能上一致,而关键词却不同于目录,因此也不同于标签。
但是在信息的索引找寻上,标签和关键词却有相通的地方。关键词标注内容的主题,而标签则是在对内容的个人理解上的私人标注,未必针对的是主题,比如我可能关注的是时间,或者是内容中某个和通篇主题无关的观点。因此标签的设定要比关键词自由的多,也要方便得多,就好像我把东西到处乱放,但我总能找到我需要的东西。因为那是我自己地盘的坐标。标签就是自己关注/存储内容的坐标。
比如中网的老板万平国的办公桌上总是乱七八糟,东西堆得像座山,但他总能找到他想找的东西,不管是一本书,还是一封信,因为他已经在脑子里为那个东西贴上了标签,他知道那东西在哪儿。但别人把他的桌子收拾干净以后,他却发现,很多东西找不到了。
zheng还认为,“就算是有着悠久历史的分类法下的信息,它所能展现的,远远落后于信息本身所产生的,因为它有着严重的时滞。”
人的思维常常是无序的,跳跃的,同时也是活跃的;但严格的分类法把这种无序的状态进行规整化以后,同时也损失了这种无序所承载的信息量。关键字技术当然是有用的,基于文章的语义分析未来可能产生大量有价值的应用。但,人并不总是需要精确。就像你爱上了一个姑娘,并不是因为她完全符合你事先确定的那些规格,其中一定有很多不可言说的成分。
tag是人产生的,又是通过机器实现的,所以它天然地带有人和机器的双重性格。它无法替代关键字和主题词,但同时,机械的关键字和主题词也无法替代tag。
Update 1: 刚刚又在MSN上跟jiangwei聊了几句,他在政府部门从事语义挖掘方面的工作。像很多人一样,他或许也认为tag这种民间分类的价值被高估了。不过我的看法是,语言学和图书馆学关注的中心是物,是无生命的文本,而民间分类关注的中心是人,tag是一种人类活动,而不完全是一种分类方法。
Update 2:xuer对tag与关键字的评论,是我见过的最形象的评论:
Tag与关键字之别不仅仅是人机之别,说到底还是人与人的主客观念之别,都是人的东西,机器只是一种反映,无非:Tag是以主观之,关键字是以客观之;Tag是我的,关键字是别人的;Tag用“心”,关键字用“聪明”;Tag是乐,关键字是音;Tag是曲,关键字是词;Tag是诗歌,关键字是文字;Tag是情绪的,关键字是理智的;Tag是自由的,关键字是必然的;Tag是可爱的,关键字是可信的; Tag是“灯”,关键字是“镜子”……窃以为二者在帮助我们认识自我和认识世界时相辅相成,相得益彰,是不二的!
事实上,上次在读ooof对Isaac的访谈中提到的google策略与语义网策略时已隐约有这方面的感受。