DeepWeb搜索文章-《查找"看不见的网页"的途径与工具》 - funson的专栏 - ...

来源:百度文库 编辑:神马文学网 时间:2024/04/28 01:08:06
查找"看不见的网页"的途径与工具
邢志宇
刑老师的文章值得细看与学习!
"看不见的网页"(The Invisible Web)是指搜索引擎商出于自身考虑不愿索引的某些网络内容,或是因为技术原因普通搜索引擎(popular search engines)无法索引的网络内容。这些普通搜索引擎的"蜘蛛"不容易接近的"深层网络"(deep Web)的数量,要比搜索引擎索引的网页(visible Web)多出500多倍。如何搜索Invisible Web 已经引起国内外学者和网络搜索爱好者的关注。就搜索技术而言,搜索网站和搜索引擎商正在寻求构建能够揭示Invisible Web的目录指南,或改进搜索技术,增加搜索功能等多种对策;就具体搜索而言,用户应注意调整搜索策略,熟悉相关目录和专用搜索引擎,掌握相应的搜索技巧。一般来说,搜索Invisible Web可以从目录指南(directories)、具有检索功能的网站(searchable sites)、免费数据库(free Web databases),以及专用搜索引擎(specialized search engines)和优秀普通搜索引擎等四种途径入手,选择使用相应的检索工具。
一、目录指南
1、Librarians‘ Index to the Internet( http://lii.org/),一个可以信赖的经过图书馆员筛选和维护的包括14,000多个网站的主题目录,在查询框输入一个宽泛的主题词加上"and databases"就可以进入相关的
"Invisible Web"资源,如输入检索词"biology and databases"(生物和数据库),就可找到普通搜索引擎无法索引的有关生物方面的数据库资源。
2、FindLaw ( http://www.findlaw.com/),世界著名的法律网站,在法律条目下链接许多免费数据库,是查找法律Invisible Web的常用工具。
3、InfoMine ( http://infomine.ucr.edu),图书馆员编制的包括120,000 多个学术网站的分类目录。
4、About.com ( http://www.about.com/) ,内容广泛,查询主题数以万计,包括众多"Invisible Web"资源,并有精选新闻和评论,输入"Invisible Web"可以找到很多隐藏网页链接,如:"Invisible Web: The Cloaked Internet"("看不见的网页":被掩盖的网络资源)、" Visible versus Invisible Web"(从可见网页到"看不见的网页")等等, 可作为搜索"Invisible Web"的指南。
5、Academicinfo( http://www.academicinfo.net/),学术资源主题指南,提供一个适合大学生利用的学术网络资源检索入口。它以"Subject Gateway"区分知识领域,利用知识树的方式细分主题,主题下汇集该门学科的包括数据库等的各种相关网络资源,而不仅仅是网站的链接。该目录以图书馆和学术单位的电子资源为主,主题的分类和内容指引清晰易寻,使用方便。
二、搜索"Invisible Web"的网站
1、Direct Search ( http://www.freepint.com/gary/direct.htm),最具权威的用于检索"看不见的网页"的网站,拥有数量庞大的Invisible Web资源链接。
2、The Invisible Web Directory ( http://www.invisible-web.net/),《看不见的网页》(The Invisible Web: Uncovering Information Sources Search Engines Can‘t See )作者Chris Sherman和 Gary Price创办的专门用于指导检索Invisible Web资源的网站,网站的宗旨是"寻找搜索引擎无法找到的隐藏的网络资源"(Finding Hidden Internet Resources Search Engines Can‘t See)。
3、Profusion ( http://www.profusion.com),Intelliseek公司旗下的一个智能型并行元搜索引擎,其搜索对象分为包括WEB(万维网)、News(新闻)、Jobs(职业信息)、MP3、Downloads(下载文件)、Legal(法津)、Discussions(讨论组)等21个资源大类。可搜索以网页搜索为主的其它搜索引擎无法搜索到的数据库、百科全书等资源类型的信息。
4、CompletePlanet ( http://www.completeplanet.com/),BrightPlanet公司经营的网站,包括70,000多个可以检索的数据库及专用搜索引擎,用于从数据库查找不能够被普通搜索引擎索引的文件。
三、Invisible Web 数据库
1、AnimalSearch ( http://animalsearch.net/),一个适合家庭使用的有关动物的网站数据库。
2、Educator‘s Reference Desk ( http://www.eduref.org/),在过去的十年中,该网站始终链接着AskERIC网站上的2000多个教学计划, 3000多种在线教育信息链接和200多件咨询档案。该网站提供"ERIC教育研究数据库"--世界最大的教育资源数据库和美国教育部的GEM(Gateway to Educational Materials)的检索入口。
3、NatureServe Explorer( http://www.natureserve.org/explorer),网上百科全书,提供美国和加拿大
60,000多种植物、动物、生态系统的权威资料。
4、Nuclear Explosions Database ( http://www.ga.gov.au/oracle/nukexp_query.html),澳大利亚地球科学数据库,提供1945年以来世界范围内核爆炸的地点、时间、规模等数据,点击"databases"下的"Online Tools"可以看到在线制图工具和数据库列表。
5、PubMed ( http://www.ncbi.nlm.nih.gov/entrez/query.fcgi),提供对MEDLINE(美国国家医学图书馆的文献数据库)1400多万全文和相关资源的检索,还可以浏览美国国家医学图书馆(NLM)所属的国家生物技术信息中心(NCBI)的数字化生命科学期刊文献馆(PubMed Central (PMC))中160多种专业期刊全文和《书架》
(Bookshelf)数据库中不断增长的生物医学工程图书的全文,它还提供目前世界上最大的生物分子数据库NCBI的Entrez数据库检索系统,以此为入口可以检索更多的生命科学方面的数据库。
6、LookSmart‘s FindArticles ( http://www.findarticles.com/),LookSmart管理的一个免费全文数据库,可提供900多种出版物的5500万篇文章的全文免费检索和打印。从LookSmart主页(http://search.looksmart.com/)上列的"Articles"按钮,也可进入该数据库。
7、Directory of Open Access Journals ( http://www.doaj.org/),2003年5月由瑞典隆德大学图书馆推出的开放式目录检索系统,免费提供1300多种期刊的篇目检索和300多种自然科学、人文科学及社会科学期刊的全文检索。
四、搜索引擎
1、Incywincy( http://www.incywincy.com/),以Net Research Server (NRS)技术为核心的Invisible Web搜索引擎,其目录是由DMOZ(http://dmoz.org/)提供的 Open Directory Project,其"蜘蛛"程序并不是探寻所有的网站,而仅仅是抓取ODP中的Invisible Web网页。
2、google scholar( http://scholar.google.com),Google学术搜索实际上是Google索引的一个子集,涉及医药、物理、经济以及计算机科学等多个领域,可以搜到一些与输入关键词相关的学术性刊物文章,研究机构论文、书籍、摘要及技术报告等等,搜索结果中可以列出文章的不同版本以及被其他文章所引用的次数。它可以对pubmed(美国国立生物技术信息中心(NCBI)开发的用于检索MEDLINE、PreMED-LINE数据库的网上检索系统)等独立的专业数据库进行检索。
3、Singingfish ( http://www.singingfish.com),一个优秀的声/视频搜索引擎,它只索Windows Media、
Real、 QuickTime、mp3等多媒体文档,其搜索结果可以免费使用。
4、Google News ( http://news.google.com/) 颇受好评的Google新闻搜索,拥有4500多个新闻源,每15分钟自动更新,其"Top Stories"下拉菜单,可供浏览不同国家的"最新新闻"。注:Yahoo!News、Topix.net、
Daypop等也有类似功能。
5、Scirus ( http://www.scirus.com/) ,一个覆盖16700多万网页的著名的科学搜索引擎,它的高级搜索功能尤其令人称道,可以从科学学科(如:Agricultural and Biological Sciences、Astronomy...)、信息源(如:NASA、US Patent Office...)、文件格式(如:PDF、HTML...)、信息类型(如:Abstracts、Articles、Books...)等途径检索1920年至今的期刊和网络科学文献,查找具体数据、报告、文章和相关研究网页极为方便。
在搜索多种非HTML文档(non-HTML files)方面功能强大或独具特色的普通搜索引擎,如Google (http://www.google.com/) 、Yahoo!  (http://www.yahoo.com/)、Gigablast (http://www.gigablast.com/)等,也是搜索Invisible Web不可忽视的工具