微软教你作英文 (2009-02-27 10:43:32)

来源:百度文库 编辑:神马文学网 时间:2024/04/29 23:39:14
标签:微软亚洲研究院 在线词典 英库 engkoo it  分类:技术
在垂直搜索领域微软亚洲研究院始终保持着奔跑的姿态:借助英库(Engkoo),传统的在线词典模式被突破。
选自《互联网周刊》2009年第4期,作者:马荟
“毫不夸张地说,我对英库渴望已久。”微软亚洲研究院自然语言计算组副研究员刘晓华在采访快结束时才对记者说了一句很“私人”的感受。“我是一个中国人,在微软亚洲研究院,我的日常语言变成了英语,日常口头交流还好说,但是发邮件、演示PPT、写研究论文就需要精益求精。这样特定的角色就要求我像美国人一样写出纯正、地道的英文来。”
坐在刘晓华身边的Matthew Scott挂着夏威夷阳光般亲切的笑容,这个来自纽约的小伙子是微软亚洲研究院技术转化组软件开发工程师,同时,也是英库项目的负责人,Matthew Scott现在还听不懂刘晓华和记者之间的中文对话。对于一个不懂汉语的外国人,却在负责一个用来帮助中国人能够写好英文文章的垂直搜索引擎的疑惑,记者很快释然了。因为从Matthew Scott的微笑中感受到的是他与这个全球性的跨国企业相似的表情:充满“亲和力”的本地化创新。

微软在基础研究阶段就定下了产品的基调:面向中国文化和中国用户的需求。微软作为一名后来新兵在纷繁的在线词典市场,从帮助国人写好英文文章的角度,选择了与谷歌、网易有道词典、爱词霸完全不同的开始。
希格玛的地道英腔
英库在线英语工具(www.engkoo.com)本质上是一个帮助中国人学习英语的垂直搜索引擎。与微软亚洲研究院的有些研究成果相似,英库的诞生是微软亚洲研究院研究员们的无数次冒险和尝试之一。“开始的想法也并不在于商业上的应用,而是流传在研究院内部的一个有用的小工具。”Matthew Scott对记者说。
英库凝结了包括创新工程组、语音组、用户体验组、机器学习组等不同领域的研究团队的集体的智慧,而微软亚洲研究院的研究员们就成了英库第一批使用者。
融合了包括微软Office词典、电子百科全书等十余部经过授权的专业词典;英库对整个互联网的网页进行分析、抽取、整理获得数量巨大不断更新的双语例句和短语,再利用自然语言计算、统计机器学习等技术对双语例句做了自动分类、质量分析、相关度排序、语法分析等处理,在此基础之上构建了基于语言学特征的高维索引,从而提供了超越关键词的新的检索体验。
经过了无数次的改进,英库经受住了希格玛大厦里这群“最聪明”人的挑剔和“找茬”。在去年11月微软亚洲研究院“创新日”活动上,英库和其他展出的四十多项创新成果首次亮相就吸引了众人目光。
“也许别的在线词典的搜索功能已经很完善,但是英库着实为用户着想,不仅词库完整,更注重用户的体验以及操作的便捷。我相信英库一定会在将来成为最受欢迎的在线词典之一。”北京理工大学微软技术俱乐部王维堃在看过技术演示后说。
世搜新语
界面友好度和细节上的斟酌往往决定了软件的生命力,相较于大多数停留在翻译功能的在线词典来说,英库的确是个突破。
“在写作过程中,常需要找一个词来搭配另外一个词来润色句子表达,英库的词性百搭就提供了这样的功能,输入句子主干,对于无法确定的单词,可以使用该词的词性缩写代替,英库就能自动搜索出符合要求的例句,这对于我写技术性的英文报告帮助太大了。”刘晓华这样向记者介绍。
在英库词典搜索框中输入一个单词,所有相关的信息都汇集于一个页面。在页面上端,列出了常用解释,同时包括音标、词性、中英文翻译、词形变化等。这种基于千万数量级权威词典和网上最新词汇而搜索到的词汇释义被Matthew Scott形容为“与时俱进”。
紧接着词汇释义的是关于所搜索词的例句搜索结果,包括英文例句、中文例句和例句的来源。这些例句是从海量的互联网数据中选择出来的,通过复杂的机器语言分析和算法,把有拼写错误、语法错误、句子特别长、或者包含怪符号、中文翻译质量差的排除掉,之后再对筛选后的数据进一步算分数。“现在可以呈现出10条例句,就会有一个质量由高到低的排序,以后会呈现更多的例句,通过机器计算来让用户自己选择。”Matthew Scott向记者介绍到。
值得一提的是英库的例句检索功能。通过对例句进行进一步的加工,无论是口语的、书面语的,还是技术性词汇,用户根据这些检索条件,选择对应难度的例句。因此无论是小学生写作文、还是专业研究者写论文或者是员工给老板呈报告,都可以找到适合自己文章难度的例句。以“mouse”这个单词为例,它既有老鼠的意思,同时也是鼠标的意思。
对于相似的词条,可以把两个近义词拖放到一起,在同一个页面中进行比较,不仅可以比较词的原型,还可以比较词的变形和不同的词性。而点击页面中出现的单词,可以局部刷新,并且能用机器合成的朗读音来地道的朗读例句。
起跑之后
从帮助中国人写地道的英文文章出发,微软的定位很明确:做在线词典的第二个层次——在线的翻译结果往往难以达到文章写作的要求,这个时候就可以通过英库验证从而得到地道的英文表达。
说起英库的未来,MattewScott双眼放出激动的光芒:“我们接下来马上就会添加一些更有用的功能,比如说,把英文句子划出,通过机器的翻译立刻用中文表达出来。包括英文句子和英文段落的机器翻译和表达方式,这些都是我们目前正在研究的课题。”
语言是人们沟通的手段,技术缩短了交流的距离,微软在这两个对人类发展最重要领域之间架起了一座桥梁。
微软在基础研究阶段就定下了产品的基调:面向中国文化和中国用户的需求。从人立方、对联搜索到如今的英库在线英语工具,微软亚洲研究院在垂直搜索领域保持着奔跑的姿态。