谈点技术——关于Tag

来源:百度文库 编辑:神马文学网 时间:2024/04/25 13:46:03
谈点技术——关于Tag
本来不懂技术的我,因为05月23日就tag这个热门话题发表过一点个人意见——《自由,抑或无序?!》,并有幸得到了herock  | keso  等朋友的认可和推荐,其中最可贵的是duduwolf同志在【网摘短评】妥协用户有时候也可认为是对用户的不负责任一文中给出了深度的意见。一周之后终于有时间就此话题继续思考下去,于是写在这里以便能得到大家的批评指教!
不敢妄谈技术的我,今天附庸风雅谈一下自己对tag在技术层面的一点理解,希望不会贻笑大方。就像我在《自由,抑或无序?!》中所提到的,“用技术手段实现一劳永逸的服务策略必将沦为可耻的行为,只有融入服务商真正的心血、智慧并进行过有效加工的服务才是最终被最广大用户期待、推崇和信赖的服务”——我所批评的只是像blogbus.com这种采用了简陋的技术导致用户体验变糟的BSP(当然,那些没有勇敢采用tag技术的BSP并非因此而值得表扬),而推崇一种能够将tag技术进行灵活运用、深度加工、并在一定程度上规避了因用户滥用 / 误用 / 个性化使用tag而导致的信息质量降低的做法。
又犯了累赘的毛病,现在直接切入正题。
有一种技术,现在已经被一些网站提上研发计划,并且卢亮曾经有文专门谈及,可能就是我接下来要说的东西,只因为我对技术不够敏感,隐约感到其中存在差别,所以在此仍然大概的说一下。
因为不同的用户个体之间存在的客观差异性,在用户进行网摘操作的时候,难免会填写不同的tag内容。其中,一种用户是嫌麻烦、没有认识到它的价值、不认同它的意义而弃用甚至滥用tag;第二种用户是因为对所摘录内容的理解不到位而误用tag;第三种是因为不同的用户个体之间因为文化、观念、思维方式等存在的天然差别而过于个性化的选用tag。所有这些情况都将导致应用tag进行内容聚合的结果的质量下降,即便在将来因为有效的用户教育一定程度上减少了滥用和误用的现象,过于个性化的选用仍将导致同样问题的存在。
我设想的解决方案:
首先,基于语言科学由人工设计一定数量的基本tag并进行分类整理,建立起一个基本覆盖所有汉语词汇和英语热门词汇的tag集;
其次,结合进用户所提交的个性化tag并引进机器自动分类的方法,进行动
态的学习更新;
第三,人工+机器智能相结合建立“tag—分类”的全面对应关系;
第四,用户提交tag的时候由系统自动进行判断——tag内容与摘要内容进行适用性判断,tag与分类进行关联性判断;
第五,判断完成后网摘信息对应到相应的分类条目,此分类信息与用户提交的tag关联保存;
第六,用户使用tag进行查询的时候(包括tag图的方式),网摘信息中所使用的tag与查询所使用的tag有重合且网摘所用tag 与摘要内容不存在矛盾的信息在最前;查询所用的tag 仅与网摘信息中的摘要内容存在重合的信息在第二位;查询所用tag 与网摘所用的tag 没有重合,但有部分被归属到相同分类下的信息在第三位。
这个思路应该是对卢亮提到的新闻聚类、分类的初级理解,但运用到网摘技术中,因为每条网摘都由用户进行了内容摘要,并进行了或者优秀、低效,或者正确、错误的一次处理,这在很大程度上方便了搜索引擎的二次判断处理。
这种比较繁琐的做法应该对应用tag进行信息提交,并应用tag进行信息聚合、查询的功能质量和效率都有所提高。至少比时下只对网摘信息数据库进行一一对应的查询要发达得多,但这种模糊查询带来了一定的技术成本和系统成本,对网摘服务提供商来讲是否值得开发就要考虑性价比的问题了。但是,我一直认为:各博客服务提供商、网络书签服务提供商要勇敢承担起信息筛选、滤噪甚至是标准化的艰巨工作,在广大用户真正养成良好的使用习惯之前,这很有可能成为区别实力派网站和边缘化网站的重要区隔。
希望有一天,能让下面的四句打油诗可以言之有物:
TAG实可贵,信息价更高。纵为质量故,自由亦不抛!