人民网—特别策划:ALEXA中国网站排名真相调查

来源:百度文库 编辑:神马文学网 时间:2024/04/30 09:17:31
Alexa是谁?它如何给网站排名?
·核心提示:
1、用户下载的工具条是Alexa惟一的信息获取来源,对于没有下载工具条的用户,Alexa则无法统计。这样,下载工具条提高排名成了一些网站的惯常手段。
2、Alexa通过分析工具条返回的数据来排网站“座次”
1996年4月,Alexa在美国创立,那时它只是一个小网站,主要做分类导航。1999年,Alexa被其它企业收购。
Alexa赖以成名的是那个被四处引用并被媒体多次炒作过且引发了巨大争议的全球网站排名。按照Alexa网站上的“官方声明”,Alexa公开的那份全球网站总排名是通过收集所有Alexa工具条返回的信息,经过计算得出的综合排名。从这份“官方声明”中,我们不难看出,影响Alexa排名的因素是两个,一是Alexa采集的信息,二是Alexa对这些信息进行深加工的计算方法。
    在Alexa网站上,人们可以针对某个特定网址去查询其所属的网站的访问人数,Alexa提供了一个叫做"每百万用户访问人次"的数据来表示访问人数,这个数据指的是每一百万个Alexa工具条用户中每天访问某一网站的平均人数。
仅有访问人数,还不足以反映一个网站被网民浏览的情况,Alexa还提供了另一个数据来反映到访的网民对特定网站的使用率,这就是"每用户浏览页面数"。某网站的"每用户浏览页面数"是每天所有访问该网站的Alexa工具条用户在该网站上浏览的总页面数的平均值,而同一人对相同页面的重复浏览在每天只计作一次。
有了这两个数据,Alexa就可以给全球网站按综合流量进行排名了,它把网站的这个排名称作“流量排名”。
鼓捣出来的“权威” 难以置信的排名
·核心提示:
1、用户通过工具条能大大提高相关网站在Alexa中的排名
2、汇编高手大都有能力利用Alexa漏洞作弊 提高排名
在一个国外的BBS上,很多个人网站的站长彼此分享提高Alexa排名的经验。一个名为rodpuga的用户说:“仅仅通过我每天正常地访问我的网站中的一个,我就能把排名前移50万位。我才安装了Alexa工具条两周时间!这个网站已经从第10万名跳到了第1万5千名。”另一个署名Bogglesworld的用户说:“两天前我安装了Alexa工具条,单位装了一个,家里装了一个。我已经从大约第10万名跳到了第3万名。这就是说只要安装一个或两个Alexa工具条,就能大幅度地往前跳。”
    要想彻底搞清楚Alexa排名是否可信,必须从技术上对Alexa的全球网站流量监测进行全面的解剖,当然,Alexa从来没有公布自己的技术细节,记者决定“以彼之道,还施彼身”,既然Alexa声称其数据来源就是那个工具条,记者决定首先从破解工具条入手。
受记者委托,圈内著名的Web技术专家小林,用了近一个晚上的时间,对Alexa工具条及其向Alexa返回的数据进行了细致的分析,得出了很多宝贵的第一手资料。多年前对Alexa就做过研究的小林认为,最近的这次分析揭示了一些Alexa更隐秘的技术细节。
小林告诉记者,现在最新版本的Alexa工具条的运作机理与以往没有太大的改变,每当用户以装有Alexa工具条的IE浏览器打开新页面时,Alexa的一台服务器都会收到加密的数据包,这个数据包中的核心信息就是十几个参数,这些参数包括当前网页地址、页面打开时间、用户端显示分辨率、Alexa工具条版本号、该用户是否为“亚马逊”的用户等,其中有一个重要的隐含参数,经小林分析,认为是Alexa为每个已安装的工具条自动生成的ID号码,这个号码应该是全球惟一的。Alexa可以通过这个ID对每个反馈数据包的发出者进行惟一标识,这是解决"每用户浏览页面数"重复计算问题和防止同一用户多次刷新作弊的一个重要手段。
小林告诉记者,从目前研究的结果来看,任何一个汇编高手都可以很容易地掌握Alexa工具条返回的数据包中的秘密,如果这个人同时也是一个网络编程高手,那么要针对Alexa作弊就比较容易了。从记者后来对一位上海的Alexa作弊高手的采访来看,小林的分析完全正确。该作弊者正是一位资深的Web开发工程师,其采用的手段与小林的分析也基本吻合——编写一个Alexa工具条返回码生成器,批量产生Alexa能够辨识的代码串,然后用虚拟多用户的方式发回data.alexa.com,这样就可以欺骗Alexa的服务器,让它误以为这些数据是不同用户发来的 。
小林认为,这种以编程方式模拟多用户访问的作弊方式的实现,最重要的环节就在于对那个Alexa用来惟一标识用户身份的ID号的生成算法的破解,这需要对足够多的Alexa工具条进行嗅探,抓取其数据包进行定量的算法分析。但小林同时也指出,这些工作对于一个编程高手来说,确实不算什么,只是最终作弊的实现仍需要模拟一个足够快的ID号生成程序,这可能会比较困难,不过据小林估计,国内能做这些事情的人不在少数,只是互联网这个圈子里的高手们很少去做罢了。
为了提高排名,某些中国网站不惜作弊
·核心提示:
1、Alexa无法防止网站作弊
2、Alexa工具在中国被大量下载
3、花钱就可购买排行数据
自2003年以来,一些网站在向投资人递交商业计划书的同时,开始有意无意地提一下自己的Alexa排名,按照某种大家默认的逻辑,排在全球300名的网站总是比排在全球1000名以外的网站更有价值。终于,在“圈内人”的口口相传中,Alexa排名在中国互联网上名声大噪,而此时,远在大洋彼岸的Alexa却对它的中国Fans们一无所知。
    当Alexa排名开始得到业界的普遍认可时,终于有人开始利用Alexa排名来创造“价值”了。大批个人网站的站长们开始研究Alexa的排名规则,网上开始流传各种针对Alexa的作弊工具,很多网站上开始刊登介绍Alexa作弊方法的文章,各种论坛里开始出现对Alexa排名的讨论。一时间,中国互联网业界刮起了“Alexa旋风”。
在2003年底,针对这股Alexa热,一些业内人士又开始质疑Alexa排名的可信度,并揭发出很多网站作弊的“内幕”。事实上,有相当多网民都对Alexa的排名表示过怀疑,因为在2003年的大部分时间里,Alexa排名上的全球第三和第四的网站是两个韩国网站,Alexa对此的解释是,韩国的互联网用户中安装Alexa工具条的比例较高,因此Alexa在韩国网民中得到的采样数据比较高,这就导致韩国的两家门户网站进入了全球前五名。
统计专家通过技术分析得知,若国内互联网用户以总数9000万计算,则其中安装了Alexa工具条的用户可能已超过130万。按照Alexa声称的1000万左右的工具条全球下载总量来看,中国网民对Alexa的热衷似乎显得更为突出,这或许也可以作为国内网站2004年在Alexa排行榜中整体排名提高的一个解释。
而且,事情远没有这么简单,在Alexa网站上,记者看到全球网站前10万名排行榜的报价是499美元,显然,在大洋彼岸,还是有人认可Alexa的排名数据,甚至会花钱去买那个排行数据。     此外,对于前文中记者提到的以编程模拟Alexa工具条返回数据包的作弊方式,Alexa几乎没什么好办法去防范,甚至要探测到这样的作弊手段都比较难。
附:排名高手露老底,Alexa排名多少全可控
·核心提示:
1、作弊业务收入高 百强排名值万金
2、编程破解工具条 排名多少全可控
3、作弊也有原则性 吃水不能忘掘井
通过MSN Messager,《计算机世界》记者王翌在线采访了国内一位顶尖的Alexa网站排名高手,经对方同意,特刊出双方在网上的对话实录:
作弊业务收入高 百强排名值万金
王翌:听说你能做Alexa排名?可以做到100名左右?
A:当然,更高也可以,100名左右的话,每月要两万块甚至更多。
王翌:你知道的像你这样的同行,国内有多少家?
A:我知道的就只有两家,都是重庆人做的。
王翌:你搞Alexa排名是专职还是副业?
A:当然是副业。但现在做这个业务赚得比我工资高多了。
王翌:你们现在是几个人做?
A:核心是我一个,还有几个朋友帮忙,我们从2002年就会这个了。
王翌:你有没有试过,能做到的最好成绩是怎么样的?
A:现在我可以把一个没流量的网站维持在大概50名左右,这是极限。不过一般我们不会乱来。而且也没有人出那么高的价来雇我们做那么高,我们是根据排名高低来收费的。
王翌:维护这些网站的排名是不是会越来越容易?因为把他们做上去以后,流量真的能增加?
A:客户一般都是广告和我们一起做。
王翌:你的意思是他们在拉高排名的同时,也做网站推广?还是说他们自己拿排名去拉广告?
A:是前者,做网站的人都知道,光有一个假的排名没意思。客户的心态其实很简单,他们做了广告,真实人气会上去,但不一定排名会上去。
王翌:所以,Alexa只是提升品牌的另一种方式?
A:他们大笔钱花在广告上,少笔钱花在我们身上,这样两头并进,等流量真的上来一些,排名也做上去了,他们再去接广告就容易了。广告商一看,排名不错,就投上来试试,这样他们自己的流量又确实不会太难看,广告商更容易认可。
编程破解工具条 排名多少全可控
王翌:Alexa工具条的工作机理你应该很清楚了吧?我昨天在一个朋友那里看了破解的代码,它是每次在用户浏览时都返回一串代码,这些代码中大概有9~10个参数,包括网址、浏览方式什么的,甚至网速都能监测到了。你了解的情况是这样吗?
A:差不多就是这样,但那个不是网速,是加载页面的时间。比如同样一个页面,你在本地访问,就是very fast,你在国外访问,就是slow,所以我觉得Alexa给出的Speed这一项是不公平的。
王翌:能具体谈谈你们采用的方法么?据我所知,Alexa排名的两个基本参数,也就是Reach和PV,针对它们都是可以作弊的,但实现的方式不同,另外Alexa也有一些防作弊的手段,你们是怎么搞定的?
A:写程序。
王翌:破解Alexa工具条?
A:对,我们的机器上都不装Alexa工具条,这玩意儿又慢又内存泄漏,烦死了。我们是在FreeBSD下用C语言写的模拟器,可以同时影响Reach和PV两个值。
王翌:这个模拟器是不是就在一台机器上模拟多人同时在线去访问网站?
A:可以这么说。破解了它的算法,就可以模拟成很多人了。
王翌:你们做的一台机器能模拟成多少人访问?如果要把一个网站从无到有的做到100名,需要动用多少资源?多少时间?
A:恕不奉告,反正就是模拟多人访问。
王翌:你有没有拿网站做一些试验?
A:肯定要做试验啊,比如dsdiy.com就是我做过的一个,你可以看看Alexa上这个网站的Rank图。那个站长同意我拿它来给客户做演示的,否则我也不会告诉你,我们这行也要讲信誉的,不能随便透露客户信息,我也只能告诉你这一个。
王翌:这种虚拟多用户访问的方式是不是很占内存啊?
A:还好,主要是耗费CPU的资源,不过FreeBSD够强劲,要是在Windows下可就累了。
王翌:是不是主要靠CPU计算出大量的伪装Alexa返回代码,然后只要有足够带宽给送回去就可以了?
A:对,但带宽不是问题,至少在我这儿还没成为过问题,说白了最重要的还是模拟器的算法实现。
王翌:我从朋友那里看到的好像每个代码串也就百十来个字节吧?
A:对啊,所以说带宽不是问题。CPU其实一般的也就行了,别太差,以线程方式跑。有两三家客户直接找我谈过买下技术的事情,不过价格太低我没同意,他们也太小看这技术和它的含金量了。
王翌:你既然跟踪了Alexa两年,工具条返回的这串代码的算法规则,Alexa有过变动么?
A:只有过很小的变动。
王翌:今年10月份是不是有过一次变动?好像国内网站普遍受到波及了。
A:它修改了两个参数的权重,增加了PageView的权重。所以那些纯粹靠打广告来拉流量,但本身又留不住用户的网站就吃亏了,这样的网站虽然流量可能有提高,但是PageView不高,被广告吸引过来的用户看一眼感觉没意思,可能马上就跳转到别的网站了。
王翌:那么你知道Alexa排名的完整的算法公式么?
A:具体怎么算,只有Alexa知道,但是它肯定希望这个算法是合理的,所以它也会根据一些常见的作弊手段来调整它的算法,但是我们用的这种办法是直接破解工具条,除非它放弃现在的工具条技术,否则还是拿我们没办法。
王翌:除了工具条,Alexa排名还有没有其他的依据?
A:现在人们知道的就是工具条,Alexa好像也没说过还有别的办法,所以只能是抽样数据。经常有人说,我们的网站独立IP上升了那么多,为什么排名反而下跌啊?我就告诉他们,有两个原因:1、独立IP多并不代表装了Alexa工具条的访问用户增多了;2、就算你的多了,别人的说不定更多了,排名是互相比较出来的。
作弊也有原则性 吃水不能忘掘井
王翌:你们现在接了多少客户?
A:我们一般不会乱做的,现在还在做的也不超过5个,很谨慎的,但是找我们的人始终非常多。
王翌:都是要求做到100名左右?
A:也不是,也有只要求到2000多名的,这样的客户很理智。
王翌:选择这些客户的原则是什么?是有钱就行么?
A:不是,有些小网站,一来就要我们给它做到100名,这种我们不接。
王翌:要求太高的你们不接?
A:不是要求太高,我要想做也可以做到,但说句实话,我们是Alexa的寄生虫,也不愿意一下把自己的“宿主”给搞死了。
王翌:也要讲策略?
A:是的,上次有个客户就被我气坏了。呵呵,一个MM,我当时一下说得太直了,说垃圾网站要那么高排名干嘛,她就生气了。
王翌:是不是可以这样说,网上现在有5个网站的Alexa排名是你们在维护着,并且都在100名以下?
A:是,出得起100名价格的网站很少,基本上我做的就是300~1000名左右。
王翌:300名的价格是多少?
A:视网站而定,一般都要上万。如果说标的是300名,那其实就是300~400名浮动。
王翌:这个价格对于一些小网站也就不低了。
A:小网站凭什么到全球300名?
王翌:找你的全都是大网站?
A:至少是有资格的吧。有些小网站只要求到1万名左右,这种业务我们又懒得接,不值得做。
王翌:你对他们的要求是什么呢?
A:就是至少这网站还像个样子,而且出得起这钱。也有个客户只做了一个月,因为服务器被黑客攻击了一阵,排名跌得很惨,就找我来帮他们做一个月,把损失挽救回来。
王翌:但是你们一个月后不做了,它岂不是又掉回去很多?
A:不,那个网站因为还是有很好的用户基础,流量也一直在慢慢回升。他们只是需要我把他们损失的季度平均排名挽救回来。所以我每天都需要给他们改力度,用渐变的方式,这样别人也不容易看出来是有人在帮他们作弊。
王翌:你们的方式可以想怎么上去就怎么上去,甚至能控制节奏,是么?
A:是的,以前不能,后来改进了,因为客户的要求也在不断提高嘛。
王翌:是不是这样,那个月的开始你起的作用比较大,以后逐渐减少你的作用,而那个网站自身恢复的流量开始逐渐起作用,到了月底,即使你不做,他们网站自身的流量也基本恢复得差不多了?
A:对,这样的话,那个网站在Alexa上的Rank曲线在这个月就比较平缓,不知情的人根本看不出来,只能看出他们被攻击的那几天排名骤降,然后就马上恢复了,其实那个恢复的过程长达一个月。我的作用就是让那个网站的季度总平均排名不受影响。这种有实力的网站,我就是不做,一个月后还是能恢复过来的,只是由于这一个月的排名都比较低,会导致连续三个月的季度总平均排名不好看。
王翌:这种有实力的网站也很在乎Alexa排名么?
A:非常在乎啊。
王翌:为什么?
A:我举个例子,你办个网站,跟广告商说,我的网站花好稻好,人家去Alexa上一查,原来你的网站排名那么低,谁还信你啊?
王翌:不过Alexa的工具条在国内用户里装的确实不多啊,这样对国内网站似乎很不利吧。
A:现在已经多起来了,信不信由你。我在2002年就掌握这技术了,但也是今年才开始开展这种业务的,因为Alexa是近期才开始在国内受到重视。
王翌:你所知道的国内网站作弊的多么?
A:找我的人很多,国内很多网站都在干这种事,但作弊的手法都不高,懂这个的人从Alexa的历史曲线图中都能分析出来。
_xyz