全球到底有多少网站?

来源:百度文库 编辑:神马文学网 时间:2024/04/28 18:27:15
全球到底有多少网站?
庄主 @ 2006-11-06 21:45
上周互联网服务器研究公司netcraft.com公布其2006年11月全球互联网网站服务器调查,宣布全球互联网网站总数第一次跨过一亿大关。该消息立即被全球传统媒体和网络媒体转载。部分媒体在转载时,加入了一句“有些行家认为该数字有水分。。。”
这学期教的课中有门“互联网传播”。上课时提到这个新闻及其争论,有学生问:全球到底有多少网站?答曰:取决于如何定义“网站”。
这个问题还需要解释?去900916或wikipedia搜一下不就得了?是,如果在900916中打 “what is a website”,可以得到15亿(!)个相关网页。扫描一下前几十条,大同小异,如“a website is a collection of webpages …”(“一个网站是若干网页的集合。。。”)。可惜,这些名目定义,如同我们对其它理论概念的定义一样,只给出笼统范围、对实际操作并无直接指导作用。因此,才会有原则同意和具体分歧的出现。
在互联网技术界的一个共识是,每个网站的网页“集”是按一个从低到高的层次结构“合”起来的,其层次最多可能有四级:网页 (page) -> 目录 (directory) ->主机名 (host name) ->域名 (domain name)。以我管理的传播与新媒体硕士专业网站为例,newmedia.cityu.edu.hk/admissions/index.cfm这个URL中,index.cfm是网页,放在admissions这个目录下,newmedia.cityu.edu.hk是主机名(其实是一台IP地址为144.214.44.183的服务器),这个主机名是我们学校的域名cityu.edu.hk旗下众多主机名中的一个。互联网早年(即三、五年前),主机名是拥有域名的机构下面的部门网站(见以下例外)。但是,技术界对拥有主机名的部门网站是否可算独立的网站并没有取得共识。
从网页内容、网页制作与管理等各方面来看,大部分部门网站(主机名)与其母公司网站(域名)都是相对独立的,所以把前者看作是“网站”有一定道理。搜索引擎抓网页时,只要将URL中第一个“/”右边的内容切掉,剩下的就是主机名,十分方便(如果要从主机名中提域名,还要花点工夫)。netcraft.com用的就是搜索引擎的方法,统计出来的一亿“网站”其实就是一亿个主机名。这种方法有什么问题呢?至少有两个。
一、主机名数与官方统计的域名级网站数不一致。主机名并不需要向域名注册机构(如中国的CNNIC、香港的HKNIC、亚太的APNIC等等)登记注册。各国政府的统计都是由后者提供的,所以官方(包括国际、国家、地区等)统计数据里的“网站”是指域名数。如CNNIC对“网站”的定义是“指有独立域名的Web站点”(见http://cnnic.cn/download/2006/20060516.pdf,p. 7),而主机名则被认为是网站下属的“频道”。按此定义,中国大陆在2005年共有注册的域名259万个、其中有些是重复指向同样的服务器、有些只注册而没有投入使用,而实际运营的网站为69万个(http://cnnic.cn/download/2006/20060516.pdf, p. 12)。如果谁不注意Netcraft与CNNIC的不同定义,可能会得出“中国网站(69万)只占全球总数(10144万)的0.7%”的结论。
另据互联网域名注册和研究公司WebHosting.info的统计,全球2006年10月共有域名7321万(http://www.webhosting.info/domains/)。其中有多少为正在使用而又不重复的域名不得而知;如果按中国的经验数据(3.75:1)推算,大概有近两千万个域名级网站,也即是一亿主机名的五分之一。但是我们不能因此得出“每个域名级网站平均拥有5个主机级网站”的结论,因为如下所说,Netcraft统计的一亿主机名并不等于一亿个部门/小公司/个人网站数。
二、主机名数也不等于部门/小公司/个人网站数量。原因在于各家域名级网站分配给其下属的“部门网站”、“托管的小公司网站”或“个人网站”(以前叫“个人网页”、现在自然是“博客“)的名分是不同的。三、五年前,只有域名网站下属的拥有独立的IP地址(也即有独立服务器)的部门网站才有资格拿到一个主机名。其它的托管公司网站或个人网站一般只能在域名下开一个目录,如yyy公司在xxx域名下用www.xxx.com/yyy的格式、或zzz个人在xxx域名下用的是www.xxx.com/~zzz的格式(“~”大多用于表示个人网页)。这么做,主要是因为当时主机名一定要与IP地址对应。这一技术上限制,很快就被冲破了。现在,网络管理员写个小程序,就可以自动将每一个目录的名字加到在网络管理软件中、从而生成一个“主机名”,这种主机名是“虚拟”,因为实际上没有独立的IP地址和服务器。如本竹家庄zjz06.yculblog.com其实只是目录yculblog.com/zjz06的虚拟主机名而已,从而成了Netcraft搜出的一亿个网站之一。
但是,有些域名级网站并不那么慷慨地提供虚拟主机名给托管小公司或个人网站。新浪就是一例。据一般估计,新浪上的博客网站数量第一,但好像除了老徐(xujinglei.blog.sina.com.cn)之外,没有第二个博客有主机名的,大家一律是blog.sina.com.cn/u/下面的一个“目录”(或用CNNIC的术语,“频道”)。也就是说,如果从内容和管理等实质来看,每个博客网站确实就是一个独立的“网站”(或我们传媒人更喜欢说的“媒体”),那么Netcraft统计出来的一亿个网站是低估了实际情况的,因为新浪和其它许多“抠门”域名网站下属的小公司或个人网站没有被统计到。
那么,到底全球有多少网站呢?我不知道。但是,我知道应该如何去操作:首先要将“网站”分成三类,然后分门别类地统计:
一、  “机构网站”(institutional websites, 即拥有独立域名的顶级网站),此类网站的数量已有WebHosting.info、CNNIC等统计;
二、  “部门网站”(departmental websites,即机构网站下属、拥有独立IP地址的部门或子公司网站),目前尚未有人统计、但在技术上不难操作;
三、  “个人网站”(personal websites,其实也应该包括无独立IP地址的小公司网站),它们也许有主机名、也许没有主机名而只是机构网站或部门网站下面的一个目录或频道,前者容易搜到,而后者很难,因为要将其内容(主办者、主题、地址等)与上级网站以及同级目录或频道的内容进行比较,工作量极大,而现在的搜索技术还做不到这种深度的内容挖掘。(其实这也是我与李老师讨论了两年、但觉得条件还不成熟的项目之一。)
在技术界还没有解决如何统计第三类网站前(估计还有数年时间),我们需要记住的是Netcraft统计到一亿网站、远远多于“正式”(即注册过的)的网站数、又远远少于“非正式”网站的总数。