谷歌推出全新图书数据库:或革新人文学科研究

来源:百度文库 编辑:神马文学网 时间:2024/04/29 04:04:32

  北京时间12月17日上午消息,谷歌与哈佛大学的两名研究人员共同开发了一套数据库,可以对历年的单词和短语使用频率进行统计,从而了解文化和语言的变迁过程,并有望改革人文学科的研究方法。

  全新篇章

  尽管有些炫耀的成分,但谷歌的确已经对近520万本可供用户免费下载和搜索的数字图书进行了摘选,从而建立起了庞大的数据库,为人文科学的研究和教育开启了全新的篇章。

  这个数字宝库汇集了大量的单词和短语及其每年出现的频率。这也是这种规模的数据库和搜索工具首次面向博士、中学生以及所有电脑用户开放。该数据库包含的5000亿个单词选自1800至2000年出版的各种书籍,语种包括英语、法语、西班牙语、德语、汉语、俄语和希伯来语。

  该数据库的目标受众是学者,但同时也提供了一款简单的网络工具,使得所有电脑用户都可以输入不超过5个单词的字符串,从而了解其历年来使用频率的折线图——这将很快成为像热门游戏《愤怒的小鸟》一样使人上瘾的消遣方式。

  实际应用

“men”(蓝)与“women”(红)历年使用频率走势

  通过该服务,用户可以发现,与“men”相比,在女权主义上世纪70年代初获得立足之地前,“women”很少被提及。而且这两条线的走向刚好相反,并在1986年左右相交。

  你还可以借此了解到,米老鼠(Marilyn Monroe)和玛丽莲·梦露(Marilyn Monroe)在纸媒上的出现频率不及吉米·卡特(Jimmy Carter)。除此之外,还可以对其他一些生活中常用词汇的变迁进行研究。

  “该项目的目标是让8岁的孩子也有能力根据书本记录了解文化历史趋势。”美国哈佛大学教授埃雷兹·里伯曼·艾登(Erez Lieberman-Aiden)说。艾登和哈佛大学博士后让·巴普蒂斯特·米歇尔(Jean-Baptiste Michel)与谷歌共同收集了这些数据,并带头开展了一个研究项目,证明庞大的数字数据库如何改变我们对语言、文化和思想传播的理解。

  他们的研究结果将发表在本周五出版的《科学》杂志上,为那些以往拒绝使用量化分析的文学、历史及其他人文科学教授提供了一种诱人的全新研究方法。《科学》杂志也一反常态地面向非注册用户开放了这篇论文。

  文化组学

  艾登是应用数学和基因组领域的专家,他说:“我们希望证明,利用数据分析解决人文学科问题是可能的。”他将这种方法称作是“文化组学”(culturomics)。用户可以自行下载这些数据(http://ngrams.googlelabs.com/datasets),并开发自己的搜索工具。

  借助这个强大的数据库,研究人员对名声的持续时间进行了研究,并发现,名人在20世纪中叶书面材料中的名声消失速度比19世纪早期快两倍。“今后,所有人都将有7.5分钟的成名时间。”他们写道。

  具体到发明创造,他们发现,在19世纪初,技术进步平均需要66年才能被主流文化接受,而在1880年至1920年间,则只需27年即可。

  他们还追踪了一些怪异的英语动词是如何从最初不在过去式词尾加“ed”(如learnt)演变成为通用的形式(如learned)的。他们发现,英语词汇过去50年增加了70%,总数超过100万个。他们还证明了,通过精准定位新兴词汇和过时词汇,可以大大加快词典的更新速度。

  哈佛大学语言学家史蒂芬·平克(Steven Pinker)参与了这篇《科学》论文语言进化部分的研究,他20年来一直在从事英语语法和过去式形态的研究。“当发现他们拥有这样一个数据库时,我感到非常振奋,”他说,“我们太无知了。我不得不怀疑,如果这个数据库早点出现,将会对语言产生何种影响。”

  有关动词变化的信息“使得结果更具说服力且更为完整。” 平克还补充道,“我们在这篇论文中撰写的报告只是一个开始。”

  平克表示,尽管人文学科领域通常都对量化分析持排斥态度,但他相信该工具以及与之类似的工具“将普及开来”。

  质疑犹存

  但一些快速浏览过该论文的人文学者的态度却较为暧昧。“整体来看,这是一件很好的事情。”哈佛大学英语教授路易斯·梅楠(Louis Menand)说,对于语言学尤其如此。但是他也警告称,在真实的文化历史中,“有些观点显然有点夸张。”另外,由于该篇论文的13位署名作者中,没有一位人文学家,使得他颇感费解。“该项目中甚至没有一名历史学家。”他指出。

  哥伦比亚大学前教务长、美国历史教授阿兰·布兰克利(Alan Brinkley)认为,现在就对这种单词和短语搜索工具的影响下结论还为时尚早。“我可以想象很多有趣的应用,我只是对于他们究竟试图完成什么统计工作不够了解。”

  在意识到人文学家的担忧后,艾登和米歇尔都强调说,“文化组学”只是提供信息,对信息的解释仍然必不可少。

  “我并不想让人文学家接受任何一个特定的观点——我们只是给出了很多有趣的信息。问题在于:你是否愿意研究这些数据?”艾登说。

  项目演化

  米歇尔和艾登是从2004年开始这项研究的,最初的研究对象是不规则动词。谷歌图书当时尚未诞生,而他们不得不一页一页地仔细查看大量的盎格鲁撒克逊文本。这一过程耗时18个月。

  “我们当时已经精疲力竭了。”艾登说。该项目“完全是一个‘万福玛丽传球’(Hail Mary pass,译注:是一种成功率低的孤注一掷的向前长距离传球),我们搜集这些数据后可能无法得出任何结论。”

  然后,他们后来了解到谷歌的数字图书馆计划,并认为这可以彻底改变他们的研究。他们联系了谷歌研究总监彼得·诺维格(Peter Norvig),并表达了使用这些数据进行统计分析的想法。

  “他意识到,无论对科研还是对谷歌而言,这都是一次重大机遇。”米歇尔说,“我们此后花了4年时间处理了许多复杂的问题,”包括法律问题和计算问题。美国出版商协会和作家协会与谷歌达成的数字图书版权协议目前仍在等待法院批准。谷歌表示,“文化组学”项目不会引起任何版权问题,因为图书本身甚至其中的章节都无法被阅读。

  目前,谷歌对已出版的书籍资料的扫描率已经超过11%,扫描量大约为2万亿个单词。发表在《科学》杂志上的论文涵盖约4%的资料。

  如此庞大的单词库使得科研人员能够以前所未有的方式对文化影响进行统计分析。米歇尔是应用数学和系统生物学领域的专家,他认为,具有文化参考意义的词汇在出版物中出现的频率远低于日常用语。要获得精确的结果,就必须借助庞大的样本。他说,要了解“Sasquatch”(大脚野人)一词是否渗透到了文化之中,每年至少需要10亿个单词样本。

  那么文化组学又会如何发展呢?20年后,在该数据库的最新版本中输入一个单词,看看结果如何,便能得到答案。(书聿)