随野山庄: [转载]人工智能技术在Web2.0中的应用

来源:百度文库 编辑:神马文学网 时间:2024/04/20 08:54:02
[转载]人工智能技术在Web2.0中的应用
人工智能技术在Web2.0中的应用
作者:it-man 2005/10/2
Web2.0应用的基本特征就是参与、互动、分享;参与是指网站的内容由大家提供,但大家愿意提供内容的基础是大家有收藏这些内容的需要;互动是指网站会员之间的互动、会员与公众的互动,其基本形态是朋友圈、文章评注等;分享是指大家收藏的内容进行各种形式的输出、交换,使内容的价值最大化。
音乐、图片、文章等都是大家有收藏需要的内容,这些内容和大家的生活、工作、爱好、回忆等息息相关;试想,如果每个人都能将自己一生中的这些内容很好地记录和管理起来,这些内容首先在当时就会对自己的生活、工作带来价值;其次可以让自己很好地追忆已经走过的路,在重温过去的时侯为未来提供有益的启示;最后可以为同代人、为后来者提供有价值的参考资料和知识,使自己毕生的所学、所悟、所思、所想得到永久的延续…
真到多数人都这样行动的时候,社会的知识财富将得到极大的增长,人类的文明定将前进一大步。但这里的一个问题是,如何将这些内容有效地组织管理起来,使之成为真正的社会知识财富?目前,对内容的组织管理手段主要就是分类,一是目录分类,二是tag分类。目录分类是宏观和中观的,而且目录分类本身的载体不是内容,因此只能在站内使用;tag分类也是宏观和中观的,但由于tag的载体是内容,因此tag分类是可以跨网站的。宏观和中观的分类简单易行,在多数情况下效果也不错,但其缺陷也是明显的,就是准确性不够,同类的内容太多以致仍然无法有效获得想要的资料。要解决信息获取的准确性问题,只在宏观和中观层面进行分类思考是不行的,必须进入语义理解层面才行。语义理解也可以分为两个层面,一是宏观语义理解,二是微观语义理解;宏观语义理解就是能够自动知道一篇内容的主题思想,微观语义理解就是能够自动理解每句话的内涵;就内容的组织管理来说,宏观语义理解更有应用价值,应用思路就是在每两篇内容之间根据其内容的关联度建立相关性连接,这样一个庞大的资料库中的内容之间就形成了一个基于相关性连接的神经网,随便从哪篇内容开始,就可以按照内容之间的相关度自动查找高度相关的内容,准确、快速、有效地获取自己想要的资料。做到这一点,资料库才能真正变成知识库,也才能对后续的互动、分享提供更智能化的支持!
现在说互动,常规的交友、评注完全是人工行为,基本效果是不错的,但在很多情况下却不能解决问题。试想,在一个会员达到几万、几十万、几百万甚至几千万的网站上,每个人是否都有不知道如何才能找到自己的“志同道合”者的困惑?但可以肯定的是,这么多会员中肯定有不少自己的“志同道合”者,只是不知道他(她)们是谁。如果使用上述的宏观语义理解技术,这个问题就可以得到很大程度上的解决;每个人的收藏兴趣是通过你已经收藏的内容体现的,特别是收藏的内容达到一定量级后这种体现就会非常准确;要找自己的“志同道合”者前提是自己要收藏一定数量的内容,然后以自己的收藏兴趣为条件让系统自动为你查找和你的收藏兴趣最接近的人就行了。有了这个功能,当你想建一个朋友圈时,当你想认识一些好朋友时,你就可以方便地找到大量的同兴趣的候选者,有效解决互动对象的选择问题。
最后再说说分享,现在的分享手段和途径主要有:内容订阅(带tag过滤)、人工推荐、Tag标记、RSS输出、JavaScript输出、API调用等,除tag手段外,其它的手段都和内容本身无关,只是提供了一种纯碎的技术手段,而tag方式在前面也说过,仅仅解决了粗粒度的宏观和中观内容过滤,准确性不够。如果使用上述的宏观语义理解技术,内容分享的准确性就会得到极大提高,基本应用思路是根据每个人的自动收藏兴趣由网站自动为其推荐新文章,实现个性化的自动按需推荐,使大家之间的内容分享活动自动“跑”起来,并彻底解决垃圾推荐的难题。
上面介绍了基于宏观语义理解的人工智能技术在Web2.0应用中的几个主要应用方式,前景和效果是非常诱人的,但需要真正高技术人才的介入。人工智能技术及其应用方式和传统的Web2.0技术及应用方式是很好的补充关系,只有将两者有效地结合在一起才能创造更大的应用价值,才能给网民大众带来更好的应用体验。
最后,大家可能会问,这样的人工智能技术应用有案例吗?目前所知,只有一个叫[360doc个人图书馆](www.360doc.com)的Web2.0网站应用了这项人工智能技术,主要在4个方面进行了应用:1、自动给文章生成简洁、准确的摘要;2、自动在文章之间建立基于内容的相关性连接;3、自动根据个人的收藏兴趣为其推荐新文章;4、根据自己的收藏兴趣查找“志同道合”者。
-------------------------------------------------------------------------------------------------------------------
web2.0目前还只是一种描叙,并没有成为标准.本文观点很有意思,但严格算来还是篇软文。
文中所说的人工智能主要部分是语义理解这一部分,与这一部分有最大关联的主要是搜索服务的提供商,google的论坛部分在一定程度上正在采用这种思路运作,只是现有的服务提供可能在便利程度上还不能达到,特别是针对中文系统的辐射更加薄弱。
未来随着3G技术的成熟,随身阅读和多媒体将大行其道,这相当于一个以个人为终端的广告平台,这个平台的内容提供将是日后大型社区和网站的必争之地,这一部分也是互联网新的利润增长点。但内容提供用什么才能抓住稳定的客户群体是我们现在不得不思考的问题。
一个比较明朗的方向就是能够提供一个基于兴趣爱好的内容丰富的可定制的平台。一个以个人主页(blog)为基底的可以便捷的寻找到个人兴趣的操作平面,显然在这一点上无论社区还是门户网站的现有结构和操作界面都不能适应这一要求,随身浏览的功能被实际的情况抑制。同时我们看到blog这样比较"规范"的界面可以很好的充当操作平面的功能,只是现在blog本身结构功能还比较简单,只要针对blog现在的界面进行部分改造就可以逐步向这个方面过渡。
针对于社区本身具有的优势是论坛栏目分类本身已经对于信息进行了一种分捡,各栏目内部又有一定的分类,这对于内容检索来说具有相当的好处,事实上如楼主所说的图书网站为什么能够比较好的应用这种"人工智能"技术的一个主要原因就是"图书"行业本身就具有比较好的分类检索系统,这对于语义识别是具有相当帮助的,相当于给语义识别检索加上了一个很好的辅助检索标准,这是具有相当意义的。
论坛的栏目分类在一定程度上就能够起到图书自身具有的检索系统的功能,所以说依据论坛来向内容提供商过渡是有一定优势的,而门户网站要进行这种尝试就要首先建立简单的结构体系,这对于已经辐射庞杂的网站来说无疑是具有一定困难的,所以我们看到各门户网站都在建设自己的论坛,让复杂与简单并存,同时利用自身的媒体优势来争夺这部分市场。
针对于blog的内容改进,一方面要增加收藏功能,在独立网藏之外提供可以收藏到blog中指定栏目的功能,这是针对于社区内部来说的,对于外面的网页要开发专门的专属社区的收藏工具,以添加其他网站的页面,便捷用户操作。另一方面要增加定制功能,对用户提供定制的信息服务,可以走web与邮件结合的路线,大致可以参考新闻组的功能结构。同时逐步突出邮件的地位,实现用户可以找到兴趣相投的朋友,逐步建设给予兴趣的朋友圈。
这样就可以形成以论坛为实体基底,以blog为个体界面,以web和新闻组为虚拟论坛的初步的内容提供平台,以此作为进一步争夺内容提供服务的基础就具有一定的可行性了。与此同时要开展免费邮件业务,和网络硬盘业务,作为未来移动设备的网络存储器。从而形成固定的用户群体,适当的时候与硬件设备厂家合作就可以完成对市场的占领。