自动摘要/分类技术在CMS中的应用

来源:百度文库 编辑:神马文学网 时间:2024/03/28 16:30:54

搜索技术; web2.0] 搜索引擎,2005Q2,社会化,智能化 #
个性化到社会化。个性化搜索不能说是趋势了,都有。google 有 Personalized Search 。yahoo 不仅有 My Web 1.0 BETA ,甚至还有Web2.0特征的社会化搜索 My Web 2.0 BETA 。Aamzon 的 a9.com 甚至更早就个性化,现在推出了更多的Web2.0服务(More Choice可选择200多来源,包括43 Things, Flickr, Feedster等)。与其说个性化,不如说社会化更紧跟潮流。
[财经股票; 数学; 人工智能] 人工智能代替交易员执行交易 #
这项工作着眼于在用户各项目之间分配稀缺的计算资源,如中央处理器处理能力、内存和网络带宽等。1998年至2005年在惠普实验室工作的研究员戴夫?克利夫(Dave Cliff),开发了被称为“零智慧增强”[Zero Intelligence Plus(Zip)]的交易算法。2001年,纽约IBM沃森研究实验室(Watson research labs)进行了一项测试,发现IBM的MGD交易算法和Zip都胜过人类交易员,Zip在测试中表现最好。这激起了金融机构对这种技术的兴趣。Zip现在被用作衡量其它交易算法的基准。Zip算法的工作原理是,计算“连续双向拍卖”[continuous double auction (CDA)]的最佳交易策略。连续双向拍卖是多数金融市场的交易基础。在理论微观经济学中,供求曲线用平滑直线来表示,市场在供求间快速移动以达到均衡。在实际的连续双向拍卖市场上,供需曲线呈阶梯状,而非平滑,因为交易员不得不按固定单位或其倍数进行交易,如一股、一桶石油或一个单位的货币。在理论市场上,买卖双方均掌握完美的信息,而连续双向拍卖的市场则不同,买卖双方为了加强自己的地位会说谎。自动交易的早期研究已表明,是市场掌握着多数智慧,而不是交易员。这导致了多种“零智慧”(zero intelligence)交易算法的开发。但克利夫先生进行的研究发现,在某些情况下,零智慧交易代理无法达到均衡。在实际交易中,这将意味着市场失灵。“零智慧增强”(Zip)交易系统有能力利用简单的机器学习规则,向自己的行为“学习”。这项功能使交易算法得以改进自身的表现。结果,零智慧算法失败的交易,Zip算法却能取得成功。
[CSS] Ten CSS tricks you may not know : evolt.org, Code #
Ten CSS tricks you may not know
[ajax; 微软] Atlas Project #
For this work, we’ve been working on a new project on our team, codenamed “Atlas”. Our goal is to produce a developer preview release on top of ASP.NET 2.0 for the PDC this September, and then have a website where we can keep updating the core bits, publishing samples, and building an active community around it. Here are some of the pieces of Atlas that we are going to be delivering over time:
[ajax] Ajax内部交流文档 #
更好的Ajax应用,需要更多的客户端的开发,和对当前的WEB应用理念的思考,而且良好的用户体验,来源于为处处用户考虑的理念,而不单纯是某种技术。
[ajax] Ajax: A New Approach to Web Applications(中文译版) #
传统的 WEB 应用程序模型是这样工作的:用户的界面操作触发 HTTP 请求,服务器在接收到请求之后进行一些业务逻辑处理,如保存数据等,然后向客户端返回一个 HTML 页面。但这种方式并没有给予用户很好的应用体验,当服务器在处理数据的时候,用户则处于等待的状态,每一步操作都需要等待,太多的等待会使用户越来越没有耐心。而 Ajax 则大不相同,它通过 Ajax 引擎,使得应用过程很自然,操作很流畅,因为其只和服务器交换有用的数据,而页面显示等不必要的数据则不再重新加载。Ajax 引擎其实就是 JavaScript、XML、XMLHttpRequest 等等各项技术的综合应用。
[ajax] AJAXed.com - Free Ajax Solutions #
The Keyword Suggest feature (a.ka. Google Suggest) above demonstrates the true power of AJAX. Create an Account to build your own Keyword Suggest for your site or app. Its fast, free, and amazingly simple!
[RSS] RSS商业模式的一些思考 #
第2点所谓的“RSS的扩张格式”应该已经不是RSS,而是XML吧
但是RSS却有很多实在的收益可以用来改善用户体验1、提供了多个应用之间的松散耦合,包括我们自己的应用和别人的应用的整合。 未来你可能可以在bloglines中就用uuzone的大部分功能, 或者不需要离开uuzone, 就可以浏览或用你其他地方的资源; 2、标准化了数据格式,降低跨地区团队的沟通成本,增强其他团队的合作信心。我们最近的一个合作中,双方就约定了使用RSS的扩张格式来交换数据,结果又快又好。
[.NET开发; Web服务] Calling a WebService from ASP3.0 and JavaScript #
Creating the web service and consuming it in ASP.NET was the easy part because .NET provides inherent support for it. Interesting part was to consume the same web service in ASP 3.0.After much digging, I found three completely different ways in which this could be done.1) Using client-side JavaScript. 2) Using Microsoft SOAP Toolkit 2.0. 3) Using the .NET Framework and MSXML parser (the approach I used).
[.NET开发; WEB标准] Convert HTML to XHTML and clean unnecessary tags and attributes #
This is a class library which helps you produce valid XHTML from HTML. It also provides tag and attribute filtering support. You can specify exactly which tags and attributes are allowed in the output and the other tags are filtered out. You can use this library to clean the bulky HTML that MS Word documents produce when converted to HTML. You can also use it to cleanup HTML before posting to blog sites so that your HTML does not get rejected by blog engines like WordPress, B2evolution etc.
[电子商务; 安全; 开源] 网站论坛遭黑客攻陷 当当网论坛被植入病毒 #
现在登陆当当论坛,可能被7个木马、病毒感染,包括偷“天堂”游戏密码的木马和黑客攻击程序。另外,瑞星专家在当当网的网页源代码里发现,病毒来源于一批其它网站,包括一些地方信息港和个人网站,因此怀疑这些网站已经被黑客控制。瑞星公司已将上述情况通知当当相关部门。
[搜索技术] 谁在向Google叫板 专业搜索引擎盯上细分市场 #
专业搜索引擎寄望两件事使自己在搜索引擎巨擘身边脱颖而出。第一,综合性搜索引擎在精确搜索方面困难较大。大多数搜索请求通常只包含两三个单词,这对于精确搜索而言是不够的。专业搜索引擎的第二个希望,就是建立有高度针对性的品牌和网上销售合作关系,以此开辟那些综合性搜索引擎无法涉足的赢利之道。因此,专业搜索引擎都急着结盟,希望借此让其名字分布于那些最为相关的网站。
[Google; 微软; 人才] 疯子去Google,老朽去Yahoo,傻子还在微软 #
Google在离微软Redmond总部五英里的地方建了一个办公楼,目的只有一个:挖人。一位微软的前职员声称,当他向其上司提出辞职并向同事告别的时候,他们第一个反应就是‘你不是去Google吧?‘。
[Indigo; Web服务] Indigo Beta2要支持REST #
Representational State Transfer(REST)表现状态传输。这意味着Indigo中的WebService将不仅仅使用SOAP了。REST比较简单朴素,在安全性,可靠消息传输,或标准化的业务过程自动化上还没有定义。看来现在整个Web都在简单化(Web 2.0)。 Don Box‘s Spoutlet:http://pluralsight.com/blogs/dbox/archive/2005/07/14/13352.aspx从基本原理层次上说,REST 样式和 SOAP 样式 Web Service的区别取决于应用程序是面向资源的还是面向活动的。
[搜索技术; yahoo] Yahoo! Launches New Job Search Engine on HotJobs.com #
Yahoo! HotJobs Uses the Power, Scale and Accuracy of Yahoo! Search to Crawl the Web and Provide More Job Opportunities for Job Seekers
[ajax] Drag Drop #
This shows the order being updated in the DB when the submit button is clicked.
[ajax] Ajax on Rails #
While Google‘s prominent use of XMLHttpRequest dramatically demonstrated that vastly improved UIs for web apps were possible, it was Jesse James Garrett‘s February 18 essay that finally gave this technique a usable name: Ajax (Asynchronous JavaScript and XML). That was the tipping point. Without knowing it, we as an industry had been waiting for this, and the new Ajax name spread like wildfire. I have never seen such rapid and near universal adoption of a new technology moniker!
[RSS] RSS 2.0 and Atom 1.0, Compared #
People who generate syndication feeds have a choice of feed formats. As of mid-2005, the two most likely candidates will be RSS 2.0 and Atom 1.0. The purpose of this page is to summarize, as clearly and simply as possible, the differences between the RSS 2.0 and Atom 1.0 syndication languages.
[blog; 软件] Blog software comparison chart #
常见英文blog软件功能比较表
This chart is a companion to the article ‘Time to check: Are you using the right blogging tool?,‘ published July 14, 2005 in the USC Annenberg Online Journalism Review. Do note that this chart reflects only standard features of the tools‘ installation, and not every possible extension, plug-in modification... or hack.
[融资并购; 软件] WinZip被收购 #
全球最有名的共享软件之一WinZip近日被Vector Capital收购。Vector并未透露购买WinZip的具体金额。
[RSS; longhorn] Longhorn中的RSS #
Longhorn从底层支持RSS,微软这次的动作可能会使RSS真正的飞如寻常百姓家。就像MSN Spaces真正的让许多我身边的朋友用起了Blog一样,MSN Messenger的小星星将RSS隐藏起来,“记录之”也将“Trackback”隐藏起来。MS总是能够把一件技术做的如此简单,让用户毫无感觉,这点真的必须佩服。Longhorn就像一个大大的RSS Reader,它会负责帮你管理所有的Feed,帮你进行所有的同步更新,你所需要做的,仅仅是调用RSS API,就可以在应用程序中方便的加入RSS的功能。RSS是一种基于“推”的技术,而Longhorn中的RSS更加“推”近了一步,比如Photo RSS与Screen Saver的结合,比如Calendar RSS与Outlook的结合,你无需在关心用RSS Reader去获取最新的Update,一切都会自动带到你的眼前。
[搜索技术; 网络广告; yahoo] Yahoo将根据用户搜索偏好自动显示不同的广告 #
这项广告计划被称为“Yahoo Impulse”将获取用户的搜索请求然后进行分类。Yahoo高级副总裁及首席数据官(chief data officer)Usama Fayyad举例进行了说明:如果一个人在Yahoo搜索“信用卡”就会被归类为对“金融服务”感兴趣的用户。然后该用户载浏览Yahoo旗下任何网站时就会看到金融服务类的Banner广告条等图形广告。传统搜索类广告是根据用户的搜索请求在搜索结果周围出现相关的文字广告,而Yahoo这一新的广告计划是对此的延伸。
[搜索技术; 音乐] 专用搜索引擎,细分及特色杂谈 #
细分市场是个出路!集大成者,必须从一个强项中出特色,或者说更能找到切近用户的地方,有没注意到现在的GOOGLE正在慢慢细化它的一些功能,换个方式做搜索,GOOGLE MAPS算是个细分的活,GOOGLE做的很巧,在这个MAP上整合很多资源,使得用它的人是津津乐道。
[搜索技术; Technorati; Google; blog] 每秒新增10个博客 Blog搜索吸引力日渐增加 #
Technorati与Google的最大不同在于,她将互联网看作是流动的对话语言,更具时效性和生动感。Google搜索引擎每收录一个网站平均需要两到三周时间,而 Technorati平均每七分钟就可增加一个新贴目录。使用 LiveJournal、AOL Journals和Blogger等辅助工具的博客几乎在发贴的同步就可以在Technorati上查到。
[搜索技术; cms] 自动摘要/分类技术在CMS中的应用 #
利用自动类聚技术改进一些现有BLOG发布系统的关联机制:1 文章的自动分类:2 相关文章功能:相关文章引用机制的最重要的还是主题词的提取,我了解到的提取主题词主要有以下一些途径:1 内容作者的编辑主动输入:这是缺点是不一定所有的人都有耐心提取主题/tag 我在MT中设置了自己输入关键词还是改了MT的缺省编辑模板才实现的2 利用REFERER中的搜索引擎来源关键词统计:缺点,不一定所有的内容都能得到搜索来源,而且文章发表的时候无法得到关键词;3 简单算法提取:从订阅的WSJ看:感觉就是提取标题中的头2,3个名词,看来标题还是非常重要的特征来源;4 自动主题提取:4.1 中文分词:分词是的基础,引申的人名/地名的识别也是需要加入一些特别的权重;4.2 词频统计:排除噪音词,就是大部分文章中都会出现的高频词;4.3 相似度分析(Likelihood):相关文章机制的实现不仅要将相近主题的内容类聚起来,还要将几乎完全一样的内容排重。
_xyz