幂律分布和Zipf定律

来源:百度文库 编辑:神马文学网 时间:2024/04/28 06:53:21
幂律分布研究简史
胡海波 王林
摘 要    自然界与社会生活中存在各种各样性质迥异的幂律分布现象,因而对它们的研究具有广泛而深远的意义。近年来,借助于有效的物理和数学工具,及强大的计算机运算能力,科学家们对幂律分布的本质有了进一步深层次的理解。本文从统计物理学的角度,简要介绍了幂律分布的研究史以及最新的进展,并对它的形成机制及动力学影响作了一些言简意赅的阐述。
关键词    幂律分布,优先连接,自组织临界,HOT理论
A brief research history of power law distributions
HU Hai-Bo WANG Lin
(Department of Electronic Engineering, Xi'an University of Technology,
Xi'an 710048, China)
Abstract: Various power law distribution phenomena with different
characters are ubiquitous in nature and society, thus their research
carries broad and far-reaching significance. In recent years, by effective
physical and mathematical tools and powerful computational faculties,
scientists have had a farther and substantial understanding of the essence
of power law distributions. This paper introduces briefly the research
history and current development of power law distributions from the
perspective of statistical physics, and presents some concise and
comprehensive expatiation on the mechanisms for generating them and their
influence on certain dynamic characters.
Key words: power law distributions, preferential attachment,
self-organized criticality (SOC), highly optimized tolerance (HOT)
------------------------------------------
* E-mail:sdhuzi@163.com
* E-mail:wanglin@xaut.edu.cn
------------------------------------------
1 引言
自然界与社会生活中,许多科学家感兴趣的事件往往都有一个典型的规模,个体的尺度在这一特征尺度附近变化很小。比如说人的身高,中国成年男子的身高绝大多数都在平均值1.70米左右,当然地域不同,这一数值会有一定的变化,但无论怎样,我们从未在大街上见过身高低于10厘米的“小矮人”,或高于10米的“巨人”。如果我们以身高为横坐标,以取得此身高的人数或概率为纵坐标,可绘出一条钟形分布曲线(如图1左图所),这种曲线两边衰减地极快;类似这样以一个平均值就能表征出整个群体特性的分布,我们称之为泊松分布。另外一个我们要注意的,是最高的人与最矮的人的身高之比,根据吉尼斯世界纪录[1,2],世界上最高的人与最矮的人(均已去世)的身高分别是2.72米和0.57米,二者之比为4.8,这个数值并不是很大,我们将在下文中证实。
对于另一些分布,像国家GDP或个人收入的分布,情况就大不一样了,个体的尺度可以在很宽的范围内变化,这种波动往往可以跨越多个数量级。比如根据世界银行的统计[3],最富有的国家——自然是美国——其2003年GDP高达10,881,609,000,000美元(一个天文数字),而数据显示同年GDP最低的国家——西非岛国圣多美和普林西比——只有54,000,000美元,二者之比高达201511.3。个人收入分布亦是如此,想想世界首富比尔·盖茨那高达465亿美元的个人资产就清楚了。国家或城市人口的分布也会出现类似的情形,据世界银行的统计[4],2003年人口最多的国家——中国——总人口数多达1,288,400,000,而数据显示同年人口最少的国家——西太平洋上的帕劳群岛——人口数仅为20,000(不及中国一个普通县城的人口数),二者之比有64420之多。以收入或人口数为横坐标,以不低于该收入值或人口数的个体数或概率为纵坐标,可绘出一条向右偏斜得很厉害,拖着长长“尾巴”的累积分布曲线(如图1右图所示),它与钟形的泊松分布曲线有显著的不同。这种“长尾”分布表明,绝大多数个体的尺度很小,而只有少数个体的尺度相当大,像国家人口,全世界有300多个国家和地区,只有11个国家的人口数超过一亿。
      图1 泊松分布(左)与“长尾”分布(右)
2 幂律分布研究:
上个世纪及以前对“长尾”分布研究做出重要贡献的是Zipf和Pareto[5],虽然他们并不是这种分布的最早发现者。
1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系:P(r)~r^(-α),这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。实际上,包括汉语在内的许多国家的语言都有这种特点。物理世界在相当程度上是具有惰性的,动态过程总能找到能量消耗最少的途径,人类的语言经过千万年的演化,最终也具有了这种特性,词频的差异有助于使用较少的词汇表达尽可能多的语义,符合“最小努力原则”。分形几何学的创始人Mandelbrot[6]对Zipf定律进行了修订,增加了几个参数,使其更符合实际的情形。
19世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20法则,即20%的人口占据了80%的社会财富。个人收入X不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系:P[X≥k]~x^(-k),上式即为Pareto定律。
Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布;还有其它形式的幂律分布,像名次——规模分布、规模——概率分布,这四种形式在数学上是等价的[5,7],幂律分布的示意图如图1右图所示,其通式可写成y=c*x^(-r),其中x,y是正的随机变量,c,r均为大于零的常数。这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。对上式两边取对数,可知lny与lnx满足线性关系,也即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法可得lny对lnx的经验回归直线方程,从而得到y与x之间的幂律关系式。图2显示的是图1右图在双对数坐标下的图形,由于某些因素的影响,图2前半部分的线性特性并不是很强,而在后半部分(对应于图1右图的尾部),则近乎为一直线,其斜率的负数就是幂指数。

图2 双对数坐标下一个幂律分布的示意图,直线表示对图1右图尾部的线性拟合
实际上,幂律分布[8]广泛存在于物理学、地球与行星科学、计算机科学、生物学、生态学、人口统计学与社会科学、经济与金融学等众多领域中,且表现形式多种多样。在自然界与日常生活中,包括地震规模大小的分布[9](古登堡-里希特定律)、月球表面上月坑直径的分布[10]、行星间碎片大小的分布[11]、太阳耀斑强度的分布[12]、计算机文件大小的分布[13]、战争规模的分布[14]、人类语言中单词频率的分布[5]、大多数国家姓氏的分布[15]、科学家撰写的论文数的分布[16]、论文被引用的次数的分布[17]、网页被点击次数的分布[18]、书籍及唱片的销售册数或张数的分布 [19,20]、每类生物中物种数的分布[21]、甚至电影所获得的奥斯卡奖项数的分布[22]等,都是典型的幂律分布。
以网页被点击次数的分布为例[23],尽管中国向七千九百万网民提供的网站接近六十万个,但只有为数不多的网站,才拥有网民一次访问难以穷尽的丰富内容,拥有接纳许多人同时访问的足够带宽,进而有条件演化成热门网站,拥有极高的点击率,像新浪、搜狐、网易等门户网站。
网页被点击次数的幂律分布其幂指数在0.60-1.03之间,而网站访问量的幂律分布其幂指数则接近1[24]。对于Pareto定律,在成熟市场中,金融资产收益率的幂律分布其幂指数约等于3[25]。特别需要指出的是,一些幂律分布的幂指数带有一定的普适性,如月球表面的月坑,直径大于r的月坑总数N(r)与r满足幂律关系,其幂指数D≈2.0,这一指数不仅对月球的月坑有效,甚至对火星和金星的火山口也有效[11];还有一个是行星间碎片大小的分布,其幂指数在2.0-2.1之间,这一区间不仅对陨石和小行星(如木星和火星轨道之间的小行星)这样的大碎片有效,而且对高速子弹打入岩石时所形成的小碎片大小的分布也有效[11];英文单词出现频率所满足的Zipf定律,不仅对报纸、《圣经》有效,而且对狄更斯的小说,莎士比亚的戏剧等也有效,甚至对其它一些国家的语言也是有效的,且幂指数α均约等于1[26,27];情报学和科学学中有一个著名的公式,即洛特卡(Lotka)定律,它表明一定时期某一学科或主题内,撰写了x篇论文的作者数y(x)与x满足幂律关系,不管学科或主题如何变化,其幂指数均在1.2-3.7之间,且大致按基础自然科学、技术科学、社会科学与人文科学的顺序递增[28]。
幂律表现了一种很强的不平等性,对个人收入的分布来说这确实是一件很恐怖的事,但同时也说明了,单纯依据人均收入来衡量两个城市或国家的发展水平,并没有多大的实际意义,必须还要提供一个衡量收入分布不均程度的参数——基尼系数[29,30],才能增强比较的可靠性。
统计物理学家习惯于把服从幂律分布的现象称为无标度现象,即,系统中个体的尺度相差悬殊,缺乏一个优选的规模。可以说,凡有生命的地方,有进化、有竞争的地方都会出现不同程度的无标度现象。
3 幂律分布研究:
当前许多领域(像生物学、计算机科学)的进展都面临着要处理一些复杂系统问题[31],自然界和社会中的系统的复杂性可归因于一个个交织的网络(像生态网、因特网)的复杂性,通过这些复杂网络,系统的各个组成部分相互之间发生着各种线性的、非线性的作用。复杂网络[32-35]的研究应运而生,它是近年来刚刚兴起的一个研究方向,隶属复杂性科学,教导我们从网络的观点来看待整个世界,甚至我们人类都可看成是复杂网络中的一个个小小的节点。钱学森[36]给出了复杂网络的一个较严格的定义:具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称为复杂网络。目前,这个新领域已聚集了一大批杰出的物理学家、生物学家、计算机网络专家、数学家和社会学家。
从统计物理学来看,网络是一个包含了大量个体及个体之间相互作用的系统。近年来在对复杂网络的研究过程中,科学家们亦发现了众多的幂律分布,虽然这些网络在结构及功能上是如此的千变万化,相差迥异。复杂网络中节点的度值k*相对于它的概率P(k)满足幂律关系,且幂指数多在大于2小于3的范围内[31,32];这一现象是如此的普遍,如此地令人惊叹不已,以至于人们给具有这种性质的网络起了一个特别的名字——无标度网络[37]§。这里的无标度是指网络缺乏一个特征度值(或平均度值),即节点度值的波动范围相当大。
------------------------------------------
* 节点的度定义为与该节点相连接的节点的个数。
§ 可能地,Price[17] (Science, 1965)所研究的索引网络是第一个被发现的无标度网络。
------------------------------------------
无标度网络在自然界和现实生活中的实例举不胜举**,像Internet[38]、WWW[39,40]这样的技术性网络,电子邮件网络[41]、电影演员合作网络[42]、引文关系网络[43]这样的社会性网络,甚至细胞代谢网络[44]、蛋白质调控网络[45]、食物链网络[46]等之类的生物网,都是典型的无标度网络。在过去的40多年里,科学家们一直想当然地认为现实中的网络都是随机的,随机图论[47]就是专门为了研究随机网络而发展起来的一门数学学科,但无标度特性的发现打破了这种构想。随机网络的度分布是泊松分布,度值比平均值高许多或低许多的节点,都十分罕见,是一种高度“民主”的网络,而无标度网络的度分布则是幂律分布,节点度值相差悬殊,往往可以跨越几个数量级,是一种极端“专制”的网络,二者之间有本质的区别。这两种网络的一个形象化的比较如图3[48]所示。
------------------------------------------
** 存在一些指数型度分布的复杂网络[37],如高速公路网,电力网。
------------------------------------------

图3 具有相同节点数和边数的随机网络(左)和无标度网络(右)
度分布满足幂律的无标度网络还有一个奇特的性质——“小世界”特性[49],虽然WWW中的页面数已超过80亿,但平均来说,在WWW上只需点击19次超链接,就可从一个网页到达任一其它页面。“小世界”现象在社会学上也称为“六度分离”,它来源于1967年,美国哈佛大学的社会心理学家Milgram的一个实验[50-52],这个实验证实,世界上任何两个人,不论他(她)是中国的藏民,非洲的难民,还是美国的政界高层,好莱坞的明星,甚至北极的爱斯基摩人,美洲的土著印第安人,都可通过熟人找熟人的方式建立联系,而两者之间的平均最少“中介”数是6,如此看来,整个地球确实是一个小小的世界。
图4[53]是Internet的拓扑图,它具有很强的自相似性,跟河流网之类的分形图非常类似。分形理论的创始人Mandelbrot[54]曾说过,“当你看到一个非整数指数关系,就应想到分形。不过你应当小心从事”。可以说,幂律分布与分形、非线性、复杂性密切相关,它支配了所有自然演化的具有自相似特性的无标度网络。无标度网络的度分布是一个非整数指数关系,这种网络的拓扑图呈现分形特征也在情理之中。近年来,物理工作者们日渐对无标度网络的拓扑结构产生了浓厚的兴趣,并构建了多种物理定义,从不同的角度研究了无标度网络的分形维问题[55-57]。
简单性一向是现代自然科学、特别是物理学的一条重要的指导原则[58]。许多科学家相信自然界的基本规律是简单的,爱因斯坦就是这种观点的突出代表者,他曾说过,“要使我们的理论尽可能得简单——但不是更简单。”从普适简单的幂律,我们似乎可以说,大自然是如此的复杂,而支配它的物理定律却又是如此的简洁优雅。
4 幂律分布的形成机制
如此广泛的幂律是怎样形成的呢?这是目前许多学者关注的焦点,毕竟一味地到处寻找幂律关系并没有多大的意义,而支配它形成的最根本的动力学原因才是最重要的。从现象到本质的探索一直是物理学的使命,十几年来,或者几十年来,为了解释幂律分布的形成原因,科学家们提出了几种机制,包括增长与优先连接[42, 59]、自组织临界[60, 61]、HOT理论[62, 63]、渗流模型[8,64-66]及一些随机过程[7, 8, 67]等。
一些解释幂律形成原因的机制是相当复杂的,甚至动用了“临界现象理论”和“重正化群”[68,69]等工具。其实,一些简单的代数方法——像“指数组合”[7,8]、“变量替换”[70]——亦能产生幂律分布,比如,Miller[71]曾用“指数组合”的方法解释了英文单词频率的幂律分布,Reed和Hughes[7]利用该机制,并结合随机过程,解释了城市人口分布、生物物种数分布等幂律分布。

图4 Internet在自治系统层次上的拓扑图
4.1 优先连接
Barabási与Albert针对复杂网络中普遍存在的幂律分布现象,提出了网络动态演化的BA模型[42,59],他们解释,成长性和优先连接性是无标度网络度分布呈现幂律的两个最根本的原因。所谓成长性是指网络节点数的增加,像Internet中自治系统或路由器的添加,以及WWW中网站或网页的增加等,优先连接性是指新加入的节点总是优先选择与度值较高的节点相连,比如,新网站总是优先选择人们经常访问的网站作为超链接。随着时间的演进,网络会逐渐呈现出一种“富者愈富,贫者愈贫”的现象。社会学家所说的“马太效应”[72],《新约》圣经所说的“凡有的,还要加给他,叫他有余”,同优先连接也有某种相通之处。
“优先连接性”的思想并不是BA模型的原创,早在1925年,Yule[73]在解释每类植物物种数的分布满足幂律分布的原因时就已经提出了类似的思想,虽然当时研究的对象不是复杂网络。1955年,Simon[74]对优先连接性作了进一步深入的研究***,他对网络中可能存在的幂律不怎么感兴趣,但他列举了五种可以用他的理论解释的幂律分布:文献中单词频率的分布,科学家撰写的科技文献数量的分布,城市人口的分布,收入的分布及每类生物中物种数的分布。
------------------------------------------
***
在Simon的工作之前,Champernowne[75]就提出了一个类似于“乘法过程”的数学模型,解释了个人收入分布的幂律现象。实际上,Simon的工作只是Champernowne模型的推广。
------------------------------------------
“优先连接”并不适用于所有出现幂律分布的情况,即便是对于某些无标度网络,用它解释幂律的成因也显得很不合理。以生态系统中的食物链为例,认为被捕食者最有可能被猎物广泛的杂食性捕食者吃掉,确实是一件很荒唐的事。还有像Internet、航空网等网络,流量或容量的限制可以在一定程度上抑制优先连接性,电影演员的合作网络中,节点(演员)的衰老或隐退也能起到类似的作用。
4.2 自组织临界
自组织临界理论[61]是一个影响深远的理论,在复杂系统的研究领域中,该模型曾一直被认为是产生幂律分布的动力学原因,幂律亦可作为自组织临界的证据。它认为,由大量相互作用的成分组成的系统会自然地向自组织临界态发展;当系统达到这种状态时,即使是很小的干扰事件也可能引起系统发生一系列灾变。布鲁克海文实验室的Bak、加州大学圣巴巴拉分校的汤超和佐治亚理工学院的Wiesenfeld等人用著名的“沙堆模型”[61,
76]形象地说明了自组织临界态的形成和特点(如图5[76]):设想在一平台上缓缓地添加沙粒,一个沙堆逐渐形成。开始时,由于沙堆平矮,新添加的沙粒落下后不会滑得很远。但是,随着沙堆高度的增加,其坡度也不断增加,沙崩的规模也相应增大,但这些沙崩仍然是局部性的。到一定时候,沙堆的坡度会达到一个临界值,这时,新添加一粒沙子(代表来自外界的微小干扰)就可能引起小到一粒或数粒沙子,大到涉及整个沙堆表面所有沙粒的沙崩。这时的沙堆系统处于“自组织临界态”,有趣的是,临界态时沙崩的大小与其出现的频率呈幂律关系。这里所谓的“自组织”是指该状态的形成主要是由系统内部各组成部分间的相互作用产生,而不是由任何外界因素控制或主导所致,这是一个减熵有序化的过程;“临界态”是指系统处于一种特殊的敏感状态,微小的局部变化可以不断被放大、进而扩延至整个系统。
图5 “沙堆模型”
幂律分布是自组织临界系统在混沌边缘,即从稳态过渡到混沌态的一个标志,利用它可以预测这类系统的相位及相变。自组织临界理论可以解释诸如火山爆发、山体滑坡、岩层形成、日辉耀斑、物种灭绝、交通阻塞、以及金融市场中的幂律分布现象。这种理论的启示是小事件和大事件可能有相同的起因,这为地震、恐龙灭绝、森林火灾等复杂大系统的突变提供了新的解释。以恐龙灭绝为例,古生物学家经过对化石的研究指出,这一重大事件不是经历了数万年或者几年,而是在20多天的突变中“一朝覆灭”的。恐龙的灭绝可以被看作是处于临界状态下的生态系统发生的一次“大雪崩”。
4.3 HOT理论
另一种解释幂律分布形成原因的重要理论是HOT[62, 63, 77],由加州大学圣巴巴拉分校的Jean Carlson以及加州理工学院的John Doyle提出。他们宣称,对于由许多子系统连结成的复杂系统, 不管是自然演化还是人为设计的,当该系统可以有效地容忍某些不确定因素时(具强健性),将对其它未被考虑到的不确定因素变得更敏感。也就是说,强健性和敏感度具有相互递换的效果。这里的不确定因素包含系统内部的不确定因素以及外在环境的干扰。以生态系统为例,如果它可以容忍气温变化、湿度、养分等巨幅变化,那么这生态系统却可能无法容忍一些意料之外的小干扰,如基因突变、外来族群迁入、或新的病毒,这些干扰可能会造成生态环境的巨大改变。
当一复杂系统处于HOT状态时,该系统将满足幂律,也就是说,全局性的优化过程可导致幂律分布:具有特征尺度的输入经过一个全局性的系统“产量”优化过程后,可产生具有幂律分布特性的输出。全局性优化在生态系统、航空航天与汽车系统、林业系统、因特网、交通运输及电力系统中具有广泛的应用,HOT理论可以解释上述系统中出现的幂律分布现象,比如可以解释林业系统中火灾规模所呈现的幂律分布。
4.4 随机过程
一些随机过程也可以产生幂律分布:“随机行走”模型可以解释物种寿命所呈现的幂律分布[78];“Yule过程”[21,73]是一个生成幂律的比较通用的机制,通过调节它的某些参数,可以产生幂指数范围相当宽广的幂律分布,并可与实际观测值相一致。
产生幂律分布的机制是相当多的,是否存在某个单一的、通用的理论可以解释所有的性质迥异的幂律分布呢?有一部分学者,特别是自组织临界理论的支持者,声称他们的理论可以,但大多数科学家认为[79],幂律分布是许多不同的过程或作用导致的结果,这就像经典力学,牛顿的经典力学固然很伟大,但它仅适用于宏观低速的情形。
5 幂律分布的动力学影响
幂律分布的动力学影响主要是对复杂网络而言的。网络动力学性质的基本研究对象是动力学模型在不同网络上的性质与相应网络的度分布的联系,在一定程度上说,这是一种关于网络的结构与功能关系的研究。
幂律特性的度分布对无标度网络的动力学性质有着极其深刻的影响。以疾病或病毒在网络中的传播这一物理过程为例,以前的基于规则网络及随机网络的研究表明[80-82],疾病的传染强度存在一个阈值,只有传染强度大于这个阈值时,疾病才能在网络中长期存在,否则感染人数会呈指数衰减。但对无标度网络上传染病模型的研究结果表明,不存在类似的阈值[83-86],只要传染病发生,就将长时间存在下去,这一特性表明,要想在Internet这样的无标度网络上彻底消灭病毒,即使是已知的病毒,也是不可能的[37]。
另外,度分布的幂律特性对网络的容错性和抗攻击能力也有很大的影响,对网络的攻击分为随机攻击和选择性攻击两种类型[87],分别称为网络的容错能力与抗攻击能力。研究表明[87,88],无标度网络具有很强的容错性,但是对基于节点度值的选择性攻击抗攻击能力相当差。比如对万维网或因特网中集散节点的攻击,有可能造成整个网络的瘫痪,对于某些微生物来说,它们体内度值很高的蛋白质通常掌握着细胞的生死(如图6[37]所示)。度分布满足泊松分布的随机网络,其容错性和抗攻击能力则是基本相当的[87]。可见,网络的结构稳定性是与网络的度分布特性紧密联系在一起的。

图6 酵母菌体内蛋白质的相互作用关系图
对于幂律分布对网络的其它动力学方面的影响,比如对网络上Ising模型[89,90]、XY模型[91]、临界现象[92]及沙堆模型[93]等的影响,限于篇幅,本文不再赘述,有兴趣的读者可以参考相关文献。幂律分布对现实中无标度网络的动力学性质影响深刻,这在相当程度上改变了我们对原有物理世界的看法,并进一步显示了幂律分布的重要性。
6 结束语
幂律分布已有超过一百年的研究历史了,即使在现在,仍然是众多学科研究的热点。它那简洁优雅的形式,可以将许多似乎毫不相干的事物联系在一起,这种独特的魅力吸引了一大批杰出的物理学家、生物学家、天文学家、地质学家、数学家和社会学家,并不断有新的研究者加入到该领域。但即便如此,要真正从本质上把握驱动系统呈现幂律分布的物理过程与机制,仍然有许多试验或理论性的工作要做。另外,不同类型的幂律分布幂指数有很大的不同,究竟是什么原因导致了这种不同?这仍然是一个尚未完全解决的问题。不过,我们相信,不久的将来,在众多科学家的共同努力下,人类最终将根本性地破解幂律分布之谜,为物理世界的简洁之美再谱华章。
参考文献
[1] http://www.guinnessworldrecords.com/gwr5/content_pages/record.asp?recordid=48409, 2005
[2] http://www.guinnessworldrecords.com/content_pages/record_category_a.asp,  2005
[3]http://www.worldbank.org/data/databytopic/GDP.pdf, 2004
[4]http://www.worldbank.org/data/databytopic/POP.pdf, 2004
[5]http://www.hpl.hp.com/research/idl/papers/ranking/ranking.html, 2000
[6] 张济忠.分形.北京:清华大学出版社,1997. 348[ Zhang J Z. Fractal. Beijing: Tsinghua
University Press, 1997. 348 (in Chinese) ]
[7] Reed W J, Hughes B D. Phys. Rev. E, 2002, 66: 067103
[8] Newman M E J. arXiv: cond-mat/0412004 v2
[9] Gutenberg B, Richter R F. Bulletin of the Seismological Society of
America, 1944, 34:185
[10] Neukum G, Ivanov B A. Crater size distributions and impact
probabilities on Earth from lunar, terrestrial planet, and asteroid
cratering data. In: Gehrels T (ed.). Hazards Due to Comets and Asteroids.
Tucson: University of Arizona Press, 1994. 359
[11] 张济忠.分形.北京:清华大学出版社,1997. 326[ Zhang J Z. Fractal. Beijing: Tsinghua
University Press, 1997. 326 (in Chinese) ]
[12] Lu E T, Hamilton R J. Astrophysical Journal, 1991, 380: 89
[13] Crovella M, Bestavros A. IEEE/ACM Transactions on Networking, 1997,
5(6):835
[14] Roberts D C, Turcotte D L. Fractals, 1998, 6: 351
[15] Zanette D H, Manrubia S C. Physica A, 2001, 295: 1
[16] Lotka A J. J. Wash. Acad. Sci, 1926, 16: 317
[17] Price D J de S. Science, 1965, 149: 510
[18] Adamic L A, Huberman B A. Quarterly Journal of Electronic Commerce,
2000, 1: 5
[19] Cox R A K, Felton J M, Chung K C. Journal of Cultural Economics,
1995, 19: 333
[20] Kohli R, Sah R. Working paper, Harris School of Public Policy,
University of Chicago, 2003, 04.01
[21] Willis J C, Yule G U. Nature, 1922, 109: 177
[22]http://www.collisiondetection.net/mt/archives/001136.html, 2005
[23]http://news.xinhuanet.com/newmedia/2005-03/17/content_2710396.htm, 2005
[24] Teslyuk A B, Krashakov S A, Shchur L N. arXiv: cs.NI/0404010
[25] 张宇,张建玮,王正行.物理,2004, 33(10): 734[ Zhang Y, Zhang J W, Wang Z X.
Wuli(Physics), 2004, 33(10): 734 (in Chinese) ]
[26]http://staff.science.nus.edu.sg/~parwani/c1/node87.html, 2002
[27] Montemurro M A. arXiv:cond-mat/0104066 v2
[28] 张济忠.分形.北京:清华大学出版社,1997. 350[ Zhang J Z. Fractal. Beijing: Tsinghua
University Press, 1997. 350 (in Chinese) ]
[29] Colander D C. Microeconomics 4th ed. Boston: McGraw-Hill, 2001. 428
[30] Hu H B, Wang L. Advances in Complex Systems, 2005, 8(1): 159
[31] Barabási A-L. Emergence of scaling in complex networks. In: Bornholdt
S, Schuster H G (Eds.). Handbook of Graphs and Networks: From the Genome
to the Internet. Berlin: Wiley-VCH, 2002. Chapter 3
[32] Albert R, Barabási A-L. Rev. Mod. Phys., 2002, 74: 47
[33] Newman M E J. SIAM Review, 2003, 45: 167
[34] Evans T S. arXiv: cond-mat/0405123
[35] 周涛,柏文洁,汪秉宏等.物理,2005, 34(1): 31[ Zhou T, Bai W J, Wang B H et al.
Wuli(Physics), 2005, 34(1): 31 (in Chinese) ]
[36]http://news.qdu.edu.cn/news.aspx?newsid=1514, 2003
[37] Barabási A-L, Bonabeau E. Scientific American, 2003, 288: 50
[38] Faloutsos M, Faloutsos P, Faloutsos C. Computer Communications
Review, 1999, 29: 251
[39] Adamic L A, Huberman B A. Science, 2000, 287: 2115
[40] Albert R, Jeong H, Barabási A-L. Nature, 1999, 401: 130
[41] Ebel H, Mielsch L-I, Bornholdt S. Phys. Rev. E, 2002, 66: 035103(R)
[42] Albert R, Barabási A-L. Science, 1999, 286: 509
[43] Redner S. Eur. Phys. J. B, 1998, 4: 131
[44] Jeong H, Tombor B, Albert R et al. Nature, 2000, 407: 651
[45] Jeong H, Mason S P, Barabási A-L et al. Nature, 2001, 411: 41
[46] Montoya J M, Solé R V. Santa Fe Institute Working Papers, 2000,
00-10-059
[47] Bollobás B. Random Graphs 2nd ed. 北京:世界图书出版公司北京公司,2003
[48]http://physicsweb.org/articles/world/14/7/9/1, 2001
[49] Watts D J, Strogatz S H. Nature, 1998, 393: 440
[50] Milgram S. Psychology Today, 1967, 2: 60
[51] Travers J, Milgram S. Sociometry, 1969, 32:425
[52] Buchanan M. New Scientist, 2004, 181(2430): 32
[53]http://www.nd.edu/~networks/gallery.htm, 2004
[54] 张济忠.分形.北京:清华大学出版社,1997. 300[ Zhang J Z. Fractal. Beijing: Tsinghua
University Press, 1997. 300 (in Chinese) ]
[55] Rozenfeld A F, Cohen R, ben-Avraham D et al. Phys. Rev. Lett., 2002,
89: 218701
[56] Csányi G, Szendr?i B. arXiv:cond-mat/0406070 v1
[57] Song C M, Havlin S, Makse H A. Nature, 2005, 433: 392
[58] 郝伯林.物理,2001,30(8): 466[ Hao B L. Wuli(Physics), 2001, 30(8): 466 (in
Chinese) ]
[59] Barabási A-L, Albert R. Physica A, 1999, 272: 173
[60] Bak P, Tang C, Wiesenfeld K. Phys. Rev. Lett., 1987, 59: 381
[61] 帕⋅巴克.大自然如何工作.武汉:华中师范大学出版社,2001[ Bak P. How Nature Works. Wuhan:
Central China Normal University Press, 2001(in Chinese) ]
[62] Carlson J M, Doyle J. Phys. Rev. E, 1999, 60: 1412
[63] Carlson J M, Doyle J. Phys. Rev. Lett., 2000, 84: 2529
[64] Broadbent S R, Hammersley J M. Proc. Cambridge Philos. Soc., 1957,
53: 629
[65] Hammersley J M. Proc. Cambridge Philos. Soc., 1957, 53: 642
[66] Grimmett G. Percolation 2nd ed. Berlin: Springer-Verlag, 1999
[67] Mitzenmacher M. Internet Mathematics, 2004, 1: 226
[68] Reynolds P J, Klein W, Stanley H E. J. Phys. C, 1977, 10: L167
[69] Wilson K G, Kogut J. Physics Reports, 1974, 12: 75
[70] Sornette D. Critical Phenomena in Natural Sciences. New York:
Springer-Verlag, 2000, 288
[71] Miller G A. American Journal of Psychology, 1957, 70: 311
[72] Merton R K. Science, 1968, 159: 56
[73] Yule G U. Philos. Trans. R. Soc. London B, 1925, 213: 21
[74] Simon H A. Biometrika, 1955, 42: 425
[75] Champernowne D. Economic Journal, 1953, 63: 318
[76] 斯图亚特·考夫曼.科学新领域的探索.长沙:湖南科学技术出版社,2004, 236[ Kauffman S A.
Investigations. Changsha: Hunan Science & Technology Press, 2004, 236(in
Chinese) ]
[77] Sornette D. Critical Phenomena in Natural Sciences. New York:
Springer-Verlag, 2000, 317
[78] Sneppen K, Bak P, Flyvbjerg H et al. Proc. Natl. Acad. Sci. USA,
1995, 92: 5209
[79] Newman M E J. Nature, 2000, 405: 412
[80] Anderson R M, May R M. Infectious Diseases of Humans. Oxford: Oxford
University Press, 1992
[81] Hethcote H W. SIAM Review, 2000, 42: 599
[82] Leveille J. HP Labs Technical Reports, 2002, HPL-2002-287
[83] Pastor-Satorras R, Vespignani A. Phys. Rev. E, 2001, 63: 066117
[84] Pastor-Satorras R, Vespignani A. Phys. Rev. Lett., 2001, 86: 3200
[85] Lloyd A L, May R M. Science, 2001, 292: 1316
[86] Dorogovtsev S N, Mendes J F F. Adv. Phys., 2002, 51: 1079
[87] Albert R, Jeong H, Barabási A –L. Nature, 2000, 406: 378
[88] Holme P, Kim B J, Yoon C N et al. Phys. Rev. E, 2002, 65: 056109
[89] Forogovtsev S N, Goltsev A V, Mendes J F F. Phys. Rev. E, 2002, 66:
016104
[90] Herrero C P. Phys. Rev. E, 2002, 65: 066110
[91] Medevedyeva F, Holme P, Minnhagen P et al. Phys. Rev. E, 2003, 67:
036118
[92] Golsev A V, Forogovtsev S N, Mendes J F F. Phys. Rev. E, 2003, 67:
026123
[93] Zhou T, Wang B H. arXiv: cond-mat/0406575
Zipf定律
齐普夫(Zipf)定律是由美国学者G.K.齐普夫于20世纪40年代提出的词频分布定律。
Zipf定律描述
1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系,这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用.实际上,包括汉语在内的许多国家的语言都有这种特点。这个定律后来在很多领域得到了同样的验证,包括网站的访问者数量、城镇的大小和每个国家公司的数量。
Zipf应用
相信你一定听过这样的说法:
80%的财富集中在20%的人手中……
80%的用户只使用20%的功能……
20%的用户贡献了80%的访问量……
…………
你知道我在说“二八原则”或“20/80原则”,是的,没错!
-----------
如果把所有的单词(字)放在一起看呢?会不会20%的词(字)占了80%的出现次数?答案是肯定的。
早在上个世纪30年代,就有人(Zipf)对此作出了研究,并给出了量化的表达——齐普夫定律(Zipf's Law):一个词在一个有相当长度的语篇中的等级序号(该词在按出现次数排列的词表中的位置,他称之为rank,简称r)与该词的出现次数(他称为frequency,简称f)的乘积几乎是一个常数(constant,简称C)。用公式表示,就是 r × f = C 。
Zipf定律是文献计量学的重要定律之一,它和罗特卡定律、布拉德福定律一起被并称为文献计量学的三大定律。
幂律成因--斩乱麻问题、幂律成因与组成理论之二
--2005-9-4--张学文
l 斩乱麻问题是利用复杂程度最大(跳出热力学的熵原理)求一个函数的生动例子,现在利用类似思路研究为什么很多自然和社会现象中体现着Zipf,或者分型学说的创立者大力宣扬的幂分布。
l 大约50年前G.K.Zipf发现英文的文本中a,the等字母少的词出现的机会多,而字母多的词(如Basketball)很少出现,他发现组成一个词用的字母的数量n与该词在文章中出现的概率p为负幂函数关系:p=c(n^a),a是个小于0的常数,c是系数。Zipf热情地寻找这个规律在其他社会现象领域的实用个例,目前有专门讨论这个定律的网站。多数城市的人口比较少,少数城市人很多;多数网页看它的人数很少,少数网页很多人看,这里的城市数量与人口数量的关系,网页数量与看它的人数都满足幂律关系的。
l 显然把幂函数的两边取对数,那么变量(如组成词的字母数)与其出现概率的对数恰好是线性关系,或者说在双对数坐标下,变量关系是一条直线。所以变量对数为直线关系就成为判定是否为幂律的简单依据。
l 尽管B.B. Mandebort不是严肃意义下的数学家,但是他倡导的分型几何学,他弄出来的美丽图案已经让人们承认他是一个新的分支的领袖了。其实,Mandebort研究的所谓分型问题中包括了大量的幂律分布,其他人也在这种热情中又发现新的幂律。所以目前从自然科学里的原子核到社会现象,人们在非常广泛的领域里都发现幂律存在。
l 统计数学里经常介绍很多广为应用的概率分布函数,著名的如正态分布,那里对幂律的关注比较少,其实,幂律也是概率分布中的一种。鉴于在不同语言下发现了大量的事例,幂分布应当在概率论中占有比较重要的地位。
l 为什么这些十分不同的现象都服从幂律,其共同的制约因素是什么?我也看过分析一些文章,不谈形成原因的文章多(甚至说不知道原因反而体现这个分布的神秘性),理论分析文章少,而指明它们的共同原因的文章,我到目前依然没有看到(也可能我看的文章少)。
l 大约在15年前,我们就收集和自己证明,很多概率分布函数都可以利用熵最大(复杂性最大)原理配合不同的约束而推导出来。《熵气象学》(气象出版社,1992)中就汇集了我们给出的多种概论分布所要求的约束条件。但是书里没有提幂分布。
l 大约在1991年《熵气象学》交稿后我们发现用最大熵原理配合上“变量的几何平均值为常数”这个简单约束条件就很容易得到幂分布。它与斩乱麻的约束条件的差别很小,一个的变量的平均值为常数,一个是其几何平均值不变。可以说这个简单认识道出了幂分布的形成原因。
l 遗憾的是这个认识我们一直没有写成文章。1999年我为网易的科技栏目写“改造后的熵”,就把这个认识公布到网上了。见诸书面文字则是2003年出版的组成论里比较系统地说明了这个认识。
l 所以可以说:关于Zipf律、分型的自相似律、幂分布律的形成原因就是变量具有随机性(可以引用熵最大原理—最复杂的结局出现的概论最高),而且变量的几何平均值(对于与百分比的平均)不变,这么两条。它类似斩乱麻问题但是那里的约束是代数平均值不变。所以在我看来幂律形成的统一原因在熵原理那里是个已经解决的问题。有兴趣的同志可以到组成论的网页版http://xjqxsc.idm.cn/zhangxw%20web/ZCL/index.htm(页有正式版)上细看其分析过程。
l 这里一再提到组成论这本书,下一段再简单介绍这个关于组成问题的理论知识体系。
分形、观察者与“尺度相对论”
jake 发表于 2008-11-17 9:52:09
昨天我们实体俱乐部做了一个关于分形的研讨,这促使我对分形理论的理解更深一层次,我们看到,其实分形就是一个讨论观察者问题的领域,从传统分形理论延展开,我得到了下面一些有意思的认识:
1、自相似、尺度不变性与观察者
说起分形,大家都会想到自相似和那些漂亮的图形。但究竟什么是自相似性?它的深刻内涵是什么?我觉得通过昨天的讲解,使我自己更明白了一个道理(挺奇怪,看起来是我给大家讲,但其实是我给我自己讲呢,这也是讲一个主题的好处),这就是所谓的尺度(或叫作标度)不变性(英文就叫做Scale-free)。
标度不变性解释起来也很简单,就是说无论你从哪个尺度看,系统都是一样的,最好的例子就是给大家看到的海岸线,如:
http://maps.google.com/?ie=UTF8&om=1&z=8&ll=24.011344,117.833862&spn=2.664214,4.454956&t=h
http://maps.google.com/?ie=UTF8&om=1&z=8&ll=24.011344,117.833862&spn=2.664214,4.454956&t=h
http://maps.google.com/?ie=UTF8&om=1&z=8&ll=24.011344,117.833862&spn=2.664214,4.454956&t=h
这三张图是分别从三个完全不同的尺度(也就是比例)来观察我国南海的海岸线,你会发现,如果没有地名标注的话,你无法分辨你是处于哪一个比例来看。
尺度不变性换一种解释也就是说:分形系统将能迷惑一个观察者,使得这个观察者不能分辨出自己是处于什么尺度之上的。换句话说,假如我们生活在一个分形世界里面,我们其实跟生活在分子、星系层面的观察者没有任何区别,也就是说我们并不是处于一种中心地位的。
我们还可以从观测精度角度来重新看待尺度的意味,即你观察一个系统越精细,也就意味着你的观察尺度越小。我们通常的理解是,对一个事物观察越仔细,你获得的信息越多,也就是你对该系统越熟悉,看起来好像越好。但按照分形的观点,因为不同的观察粗细程度会导致完全相似的结果,所以其实原则上讲,观察事物的粗细并不能给你更多的信息,也不会让你能更好的掌握系统。这就导出了一个系统科学非常重要的思想:粗粒化,也就是站在更大的程度看问题,比如你站在社会角度看问题,就一定要忽略个体信息,你才可能得到好的结论。
2、为什么有那么多幂律?
幂律即Power law是系统科学中一个常见的现象。经济学财富分布满足Pareto Power law tail分布,语言中有词频的幂律分布,城市规模和数量满足幂律分布,音乐中有f分之1噪音(幂律分布)……。通常人们理解幂律分布就是所谓的马太效应,即少数人聚集了大量的财富,而大多数人的财富数量都很小,因为胜者通吃的原则。
但是这种认识比较肤浅,因为即使说承认了马太效应,也仍然无法解释为什么像语言、音乐之类的表面上非常不同的领域都会出现幂律分布。
这个问题也许换个视角就能得到统一解释了,这就是我热衷的观察者视角。也就是说所有这些看起来不同的复杂系统对于观察者来说都是相似的,所以它们都有共同的幂律分布。
站在分形的角度,我们考察一个系统其实就是拿着一种抽象的尺子去测量观察这个系统。比如说,对于社会系统,我们会用财富这把尺子来测量整个社会。牵扯到了测量的问题,就有了测量的精度,这就是不同的财富数值。比如,你用100万作为一把很粗的尺子,这样的话,大部分的人就被这把尺子过滤掉了,而剩下了少数几个百万富翁。然后,你有提高了精度,你用1万元的尺子来测,你就会得到万元户,这个数量显然更大了,你还会变化不同的尺子测下去,最终你把不同的财富尺度和测得的相对人口画到双对数坐标下,就得到了一条漂亮的直线,这其实跟测量海岸线的过程是一样的。在这里,不同的尺子就是财富,而海岸线的长度就是在这种财富下的相对人口数。
财富分布的幂律也就意味着财富上面的无标度性,即你站在什么尺度看其实都是差不多。所以,富人并不比穷人更幸福,无论你站在哪个尺度看,你都面临类似的问题,你会去挣钱、花钱,你会规划未来……。烦恼是一样多的。
所以,我理解,要想彻底统一地解决为什么有那么多的幂律分布问题,需要我们站在观察者的视角看问题。在《组成论》一书中,http://zxw.idm.cn/ZCL/zclmulu.htm, 张学文老先生曾经用最大熵方法导出了幂律分布(见http://zxw.idm.cn/ZCL/part3/C17b.htm)。这套方法是我看到的解释幂律分布最简洁的一种方法,只可惜,作者并没有给出他这种方法的合理解释。很多人看来,这不过是一种数学技巧,而无物理内涵。但我觉得这恰恰可能是从观察者角度揭示幂律分布的切入点,因为最大化熵方法按照E.T. Jaynes的解释就是一种主观的方法,即最大化观察者对客观系统的无知性。
3、分形理论的未来
昨天完全没有讲到我对分形理论未来的看法。对于系统科学的专业人士来说,我认为分形理论和玻尔兹曼的统计物理一样被很多人忽略了。很多专业人士瞧不起分形就是因为这里面看起来除了漂亮的图形就没有更深层次的东西了。但其实,从尺度不变性的角度来看,这里面太有文章可做了。传统的分形仅仅研究的是可视化的平面图形的尺度不变性,但当我们把财富空间、特征空间等等看作抽象的空间的时候,我们就得到了更丰富的尺度不变性和幂律分布。更一般的,如果把时间考虑进去,尺度不变性意味着更深层次的内容。
比如最近我非常感兴趣的代谢生态学中的一些发现:物种的新陈代谢和物种的大小呈现3/4幂律关系,更深层次讲,这是一种流动和存储之间的漂亮关系。流动就意味着变化和时间,而存储意味着静止和空间。所以要想对这个3/4律作出完美的解释,必然要考虑时间和空间上共同的尺度不变性。
谈到时间和空间,让我们想起了什么?没错!相对论!!!看看当年爱因斯坦创立相对论的时候跟我们现在的处境多么相似!当年他发现这个原理的两个前提假设就是:1、相对性原理;2、光速不变原理。这两个原理合起来就是无论对于处于运动还是静止的观察者来讲,他们应该得到完全一样的物理规律。这其实跟我们的尺度不变性多么相似啊!即无论对于哪一个尺度来说,观察者应该得到相似的结论!爱因斯坦从这两个原理出发,更改了我们对时空的认识,也许从尺度不变性出发,我们完全可能得到一种全新的时空理论,这套理论将自然导出各种幂律关系以及生物体的规模、寿命等等这些玩意儿。也许我们应该给这套崭新的理论一个新的名字,“尺度相对论”,尽管她还没出生呢。