从没人要到身价百亿 聚焦Google的背后[上]

来源:百度文库 编辑:神马文学网 时间:2024/04/27 14:09:22

今天,提起Google,人们就想到了搜索;提起搜索,人们也就自然而然想到Google。9月12日,美国资深科技记者约翰·巴特尔推出新书《网络搜索》,以全新视角探究 Google的迅猛发展及强大科技力量会将Google与人类社会引向何方。巴特尔的新书再次激起人们对搜索引擎界龙头老大Google的兴趣,Google究竟是怎样起家的?它靠什么生存?这个网络搜索神话还能走多远?
巴特尔和《网络搜索》
Google诞生于1998年,有关其成功经历的报道早已是铺天盖地。 在美国资深科技记者约翰·巴特尔的新书《网络搜索》里,巴特尔认为Google及其他主要搜索引擎可谓价值无限,称之为“意图数据库”,并认为引擎搜索领域势必成为21世纪资本中心。《网络搜索》一书没有耸人听闻的噱头,作者呈现给读者的均为引人入胜的新闻资料。书中精选了巴特尔对350多位人士的采访,其中包括Google三巨头——首席执行官埃里克·施密特及两位创始人拉里·佩奇与谢尔盖·布林。
《网络搜索》还触及了很多棘手话题。例如,每日数百万用户分享Google的信息,个人隐私问题令人担忧。针对这种情况,巴特尔画了一幅漫画,假想联邦政府以国家安全局的名义要求Google为其提供用户个人信息。如果这成为现实,Google应该如何解决呢?因为美国《爱国者法》严令禁止任何公司向外界透露政府信息调查。而对于Google有可能成为美国政府“秘密武器”这一点,就连布林于今年年初接受巴特尔采访时也没有意识到。
约翰·巴特尔是美国在线杂志(Wired magazine)的共同创办人,同时他也是“新经济第一杂志”《产业标准》(The Industry Standard)的创办者。巴特尔对Google相当着迷,还花了3年时间在硅谷徘徊,与那里的商业奇才、投资者等人进行交谈。
如果说载入词典是一种衡量标准的话,那么Google无疑是成功的。根据美国牛津词典,“google”的定义就是“使用互联网搜索引擎,很大程度上指的是Google.com”或者是“在网上搜索(某个人的)名字,寻找有关他们的信息。”
对于这样的定义你不必感到惊奇。谁不曾google过未来老板、员工、医生甚至是潜在配偶的名字?谁不曾自恋又无聊地google过自己的名字?
搜索业的真谛所在应该是决定搜索者要找什么,然后免费提供一个简便快捷的方式。而令Google成为搜索界龙头老大的原因就是一种新的搜索技术,这种技术能够决定哪些网站与搜索提问词关系最大。而Google能够存活下来则是得益于把搜索结果与相关的广告链接起来。通过付费的广告搜索,Google的广告收入已高达30亿美元,估计到了2010年,数字将会攀升至230亿美元。所谓存活,不过是一种谦虚的说法罢了。
在Google之前,有不少以搜索为主的网络公司,但是,是Google把搜索变成了流行文化以及绝大的商机。
2004年8月19日,Google在纽约纳斯达克市场上市,大获成功。今年7月,美国财经杂志《福布斯》与纽约维瓦尔迪伙伴调查公司联合评选出过去4年内品牌价值增长最快的全球20大品牌,Google就排在前6位。它的品牌价值迅速增长了36%,达到48亿美元。
而在英国《金融时报》全球500大公司最新排名中,Google也因股价涨势非凡而入围全球百强,市值超过500亿美元。
为何命名Google ?
英文里原本没有Google这个词,取名时取的其实是数学名词“古戈尔”(googol,10的100次方,即数字1后跟100个零,常指巨大的数字)的谐音。这显然是一个充满勃勃野心的创业梦想,用创建人佩奇的话说:“我们的任务就是要对世界上的信息编组”。
成长故事
一切都是由一场争论开始的。1995年夏天,首次遇见拉里·佩奇的时候,谢尔盖·布林还只是斯坦福大学计算机科学系2年级的研究生而已。也许是天性爱好社交,布林自愿担任未来一年级新生的向导。这些“未来新生”已经被学校录取,但还没决定是否来这里读书。布林的责任就是向新生介绍校园情况,然后带他们到附近的三藩市游览。佩奇,来自密歇根大学的工程学系,正好就在布林带领的那个小组里。
相遇:两人均觉对方面目可憎
一见钟情在两名男生之间是很难发生的。那天,沿着城市里的小山坡走来走去,布林与佩奇之间的争论根本就没停息过。佩奇回忆说,布林的滔滔不绝与他自己的沉默寡言形成了鲜明对比,“布林非常好交际,他喜欢认识各种各样的人。我觉得他面目可憎,他对每样东西都有很强的主见,不过,我想我也是这样的。”
当布林缚知佩奇的反应时,他反击道:“我们彼此都觉得对方是个令人讨厌的家伙,但那只是戏谑的说法。很明显,我们两个交谈得很多,这里面一定有某种东西在起作用。我们都比较喜欢挑战事物的走向。”佩奇和布林也许有冲突,有争论,但他们却走到了一起——两把令彼此变得更加锋利的剑。
几个月后,当佩奇出现在斯坦福大学时,他选择了人机互动领域的先驱特里·温格里德作为他的博士导师。从那时开始,他就开始为自己的博士论文寻找主题。这是个重要的决定。佩奇的父亲是密歇根州的计算机科学教授,他告诉佩奇论文能为整个学术生涯提供框架。佩奇选择了约10个感兴趣的主题,但他发现对自己最有吸引力的还是正在飞速发展的互联网(World Wide Web)。
佩奇刚开始时并没有想到要去寻找一种更好的办法来搜索网络。尽管斯坦福已经毕业的校友纷纷成立网络公司,并从中赚取了不少财富,但佩奇发现网络最根本的趣味应该在于它的数学特性。每一部计算机都是一个节点,而网页上的链接就是节点的联系,这是经典的图表结构。佩奇表示:“计算机科学家热爱图表。”按照佩奇的理论,互联网也许是迄今为止最大的图表,而且正以惊人的速度成长。互联网的顶端潜藏着许多有用的资讯,等待着爱刨根问底的毕业生们去发掘。导师温格里德同意这个观点,于是佩奇开始着手研究互联网的链接结构。
灵感:源自学术论文引用
事实证明,这是项有价值的课题研究。佩奇注意到虽然追踪一个页面到另一页面的链接很微不足道,但如果找出某个页面被哪些页面反向链接就不平常了。换句话说,当你正在浏览某个页面时,你并不知道还有什么别的页面可以链接到这个你正在浏览的页面。这个问题困扰着佩奇。他认为如果能知道页面被谁反向链接的话,这将非常有用。
为什么呢?为了得出明确的答案,我们首先要了解学术出版的世界。对于教授来说,尤其是那些研究精确科学的,如数学和化学,没有什么比发表自己的理论更加重要的了。也许只有一件事情例外,那就是引用。
学者们的论文都是基于引用的基础来构造的:每篇论文都是引用先前发表的论文作为论据,然后进一步延伸作者的观点,最后得出自己的结论。一篇论文的好坏不仅要通过其自身的观点来判断,还要看它引用的其它论文数量、随后反向引用回这篇论文的数量以及每个引用的重要程度。
很好。但这和互联网有什么关系呢?是的,正是一个叫提姆·伯纳德斯·李(Tim Berners-Lee)的人决定要发展这种系统,后来他就发明了互联网(World Wide Web)。又正是拉里·佩奇和谢尔盖·布林尝试着反向改进伯纳德斯·李的互联网,从而导致了Google的诞生。而把这些努力串起来的针线就是引用——指向别人的研究成果以便得到自己的研究成果的行为。
萌芽:网络爬虫爬向互联网
现在让我们重新回到佩奇最初研究的反向链接,他后来把这个工程称为BackRub(一个实验用的搜索引擎,Google的前身)。
佩奇推理整个网络只是松散地建立在引用的基础之上——毕竟,链接就是某种意义上的引用吧?他发现评价网页与评价学术论文类似,不但要看内容,还要看它所引用的文章的水平以及引用它的文章的水平。对于网页来说,引用的文章就是指它所链接的网页。
如果他能探索出一种计算方法,找出网络上反向链接的数量,并且评估他们的质量,这样的话,正如佩奇所说的,“网络将会成为一个更有价值的地方。”
就在佩奇构思BackRub的时候,网络上有大约1000万份文件,其中还有数不清的链接。爬行如此巨大的互联网所需要的计算资源,远远超出了一个学生项目力所能及的范围。佩奇其实也不完全知道自己想干什么,但他开始建立了自己的网络爬虫。
这个工程的复杂性和规模把布林引诱进来了。布林是个博学的人,他从一个课题跳到另一个,从来就没有说要专注在哪个论文主题上。他发现BackRub背后的假设令人着迷。布林回忆说:“我跟学校里许多其它研究组织探讨过,发现这是最令人兴奋的工程,首先是它抓住了象征人类知识的网络,其次是我喜欢佩奇。”
1996年3月,佩奇将他的网络爬虫指向了他在斯坦福的个人主页,让它自由爬行。佩奇的网络爬虫正是从这里爬向外界,爬向整个互联网的。
发展:创造出网页级别运算法则
爬行整个网络,发现其链接总数是这个工程的主要工作,但简单的爬行并不是BackRub真正的革新所在。很自然地,佩奇明白到学术出版业的等级评定概念,他有了自己的理论:网络的图表结构并不仅仅揭示谁链接到了谁,而且是要评估链接过去的“谁”的重要性。整个研究过程将会产生一个难度极大的递回数学挑战。
幸运的是,佩奇现在与布林合作了。布林在数学方面简直是个天才,他可以解决这个问题。布林出生于俄罗斯,父亲是美国宇航局的科学家和马里兰大学的教授,一家人在布林6岁的时候移民来到美国。读中学时,布林是个公认的数学天才。读高中时,他提前一年毕业,就读于马里兰大学。毕业后,布林进入斯坦福大学,与生俱来的数学天分允许他终日吊儿郎当。他说天气很好,而自己就终日沉浸在非学术课程之中:玩帆船、游泳、潜水。他把所有的智能都花在感兴趣的项目上,而不是实际的课程论文。
佩奇和布林一起创造了等级划分系统,奖赏那些来自重要源头的链接,惩罚那些不是的。举例来说,许多站点都有IBM.com的链接。这些链接的范围可能从技术工业领域的商业伙伴到某个青少年建立的个人网站。从一个观察者的角度,根据IBM在世界上的地位,商业伙伴链接明显更重要。但是数学运算法则如何明白这个事实呢?
佩奇和布林的突破就是要创造一种运算法则——后来被佩奇称为网页级别(PageRank)。这种算法会考虑链接到某个站点的链接,并且同时会考虑那些反向链接所在的站点——也就是考察链接到那些站点的链接。这与学术引用计算方法相似。果然,这种方法是可行的。就拿上面那个例子继续说,让我们假设只有几个站点与青少年的网站链接,而这些站点同样缺少链接。与此形成对照的是,数千个站点与英特尔公司链接,而这些站点,平均起来同样也有数千站点与他们链接。那么PageRank就会把青少年的链接归类到不如英特尔重要一列,至少与IBM的联系是这样。当然,这是简单化了的PageRank技术。
事实上,佩奇和布林需要去改正任何数学上的死胡同难题。但是不管怎么样,他们做到了这一点:受欢迎的站点会在他们注释列表的顶端,而不那么受欢迎的将会排在最后。
当他们胡乱地玩弄着自己的结果时,布林和佩奇意识到他们的数据对网络搜索可能有些暗示。事实上,把BackRub的网页级别技术应用于网络搜索对于他们来说是那么自然的事情,甚至在他们发现这一点之前就是这样了。BackRub的运作方式已无异于搜索引擎,你只要给出一个网页地址,系统就会给你按照重要性排列的反向链接列表。
雏形:发布Google第一版本
佩奇和布林注意到BackRub的搜索结果比那些现有的搜索引擎更优越,比如AltaVista和Excite,这些搜索引擎总是返回不相关的列表。佩奇回忆道:“他们只考虑到文本匹配技术,而没有考虑到其它信号。”佩奇所指的信号就是现在众所周知的PageRank。
之后,佩奇和布林又对这一系统进行了改进,将网页级别与完善的文本匹配技术结合在一起,使之日臻完善。
在相遇一年之后,佩奇和布林在斯坦福的网站上发布了google的第一个版本。
困境:为了实验到处求人借钱
在斯坦福大学的一个小圈子里,Google成了大热门。布林和佩奇受到极大鼓舞,他们开始改进服务,加入全文的搜索,并且将越来越多的页面加入到索引中。他们很快发现搜索引擎需要大量的计算机网络资源,但他们没有钱购进大批计算机,只能到处求别人帮助,向他们借钱。这是网络实验室里的艰苦时期,但功夫不负有心人,Google终于横空出世。他们把佩奇的宿舍作为机器实验室,两人就像电脑版的科学怪人,把闲置的零件拼成服务器,并且将它连接到斯坦福的宽带校园网上。佩奇的宿舍填满计算机装备后,他们开始将布林的宿舍变成办公室和编程中心。
这项工程在计算机科学系内部和校园网络管理办公室成为了一个传奇。那时,BackRub的爬虫几乎占用了斯坦福大学整个网络宽带的一半。要知道,斯坦福是这个星球中拥有最好的校园网的学校之一。这一事实的出现堪称不平凡。1996年秋天,这一工程几乎要毁了斯坦福整个互联网连接系统。
佩奇回忆说:“我们很幸运,因为在斯坦福有许多具有远大目光的人才,他们并没有因为我们占用过多的网络资源而与我们争吵。”
结果:无意开公司却获巨大成功
当布林与佩奇还在马不停蹄地进行实验时,BackRub和Google的应用已经在斯坦福大学校园以及网络搜索学术界引起了反响。
但佩奇与布林一度拒绝发表学术论文。佩奇对此表示担心,原因是他害怕自己的想法会被他人偷走。佩奇觉得PageRank是自己拥有的一个秘密配方。(当然,最后佩奇和布林还是发表了论文。)
另一方面,佩奇和布林并不确定他们愿意面对开公司和经营公司的艰辛。佩奇在斯坦福就学的头一年里,他的父亲去世了。朋友们回忆说,佩奇把取得博士学位看作是对父亲的最好报答。同样生长在学术家庭的布林也不愿意放弃自己的学业。
布林记得他的导师曾跟他说:“试试看吧,如果Google成功了,这当然很好。如果不成功,你可以回到研究生院来继续完成你的论文。”布林听后咯咯地笑了,他记得自己当时说:“好吧,为什么不呢?我会试试看。”
Google 查询全过程
_xyz