中国社会科学门户 - 数据搜寻手册

来源:百度文库 编辑:神马文学网 时间:2024/04/28 20:09:06
  本学科门户网站致力于为目标用户提供本学科领域最好的Internet资源的描述,因此在设计过程中必须制定合理、有效的信息资源搜寻策略,以保证揭示当前可用的高质量的网络资源、以及揭示最新出现的高质量的网络资源。
  从网上搜索到合适的资源并加入到网页中来,工作人员因此耗费的时间和精力上是网站建设中最大的投入之一,因此寻找完成这一任务的高效而得力的方法至关重要。为此:网关管理者要确保有适当的支持资源发现的程序和方法;各网关工作人员要逐步形成自己独特的资源发现策略,以尽可能多而高效地发现高质量的资源。

一、数据搜寻策略
  本门户网站的数据搜寻策略大致分为:了解资源的覆盖范围和选择标准,通过广泛调查与搜索,初步确定采集对象;.对每个初选对象进行更深入细致的评价。
1、考察该资源是否属于本门户范围
  这是最重要的过滤器,每一项资源都必须通过这一环节后才可进入下一流程,任何不相关的资源都将被首先排除。完成这一环节的依据是本门户的范围政策。其中最重要的是首先该资源必须是与社会科学相关的。采集人员可以从它的主页上了解到它所覆盖的学科领域。
2、检索本门户
  充分了解本门户的学科覆盖领域与布局。通过在资源库中查询有无拟收录的资源,以避免重复收录。
3、评价信息内容
  门户的内容标准主要是针对拟收录资源实际所包含的信息内容。所有与资源本身相关的标准中,内容标准是最重要的。内容标准应该是最优先考虑的标准,因为用户更关心的是他们如何获得所需的信息。

二、资源发现人员
  资源发现是一项劳动密集型的任务,经济而有效的策略有助于最大限度地向网关中增加资源。以下提出一些可供网站管理者适当运用以支持其工作团队高效地发现资源的方法:
1、避免重复劳动
  如果团队内的成员都从同样的信息源搜罗资源,就会造成时间的浪费。因此要形成一套发现资源的团队策略。如通过:
  ·主题分工负责,让其中的每个人在不同的专业领域内搜索资源;
  ·信息源分工负责,让其中的每个人跟踪不同的信息源并搜集资源。
2、提供资源发现培训
  Internet一直处于不断发展和变化之中,因此也要不断学习和掌握各种发现Internet资源
的新的技巧和线索,通过培训可以提高工作人员在这方面的技能和效率。培训内容包括:
  ·为工作人员提供一些信息源的列表;
  ·提供使用不同资源发现工具的示范;
  ·通过自由讨论和交流在团队内共享资源发现的策略和经验。
3、建立鼓励用户群体推荐资源的机制
  鼓励用户将他们认为应当加入到门户中的任何网站的详细信息发送进来,这需要:
  ·为用户设立一个便捷的信息上传机制;
  ·公布网关的资源收集范围和选择标准。

三、资源发现的工具和方法
1、浏览策略
  web网页是最丰富的信息源之一,尤其相关学科领域中的那些列出或推荐了相关资源的权威网站。搜罗这些网站类似于研究人员传统上使用参考文献时应用引用文献珍珠检索或滚雪球检索的过程,如果找到一条有用的资源,跟踪其参考资源就可以找到其他的资源。
  具体可以通过搜索最相关的学科研究机构的主页(包括大学图书馆、科研机构等)、搜索知名专家的主页、搜索相关领域最重要的基于主题的网站(许多网站都有一个相关链接的栏目,可以用来发现新的资源。网站的质量越高,它所包含的相关链接的质量可能越高。查看它们的最新通报(What's New)或者最新消息(Latest News)栏目可以获得新增信息资源)。
2、搜索工具
  从Internet中搜索资源的过程可能相当耗时。因为利用搜索工具进行搜索的过程中,大多数都会返回相当大数目的检索结果,需要大量的时间才能看完这些结果。尽管如此,在某些情况下搜索引擎仍不失为一种有效的搜集工具,如:
  ·通过特定主题网站得到开始搜索的日期、机构、名称等的列表 ;
  ·搜索印本资料的网络版,如学术期刊或者学术出版商 ;
  ·搜索特定的人物 ;
  ·搜索重要的机构,并查看它们是否在网上发布了有价值的内容 ;
  ·利用相关领域的知识作为搜索的线索 。
  ·掌握并利用好一个搜索引擎,而不要使用很多搜索引擎而每个都用得不好。花时间去阅读搜索引擎的帮助文件,学习掌握如何使用其高级搜索功能。

四、不同类型数据资源搜寻策略细则
  学科门户网站应当致力于为目标用户提供本学科领域最好的Internet资源的描述。根据CSSIG《资源分类说明书》的分类标准,下面对书目及电子资源、文献资料、组织机构、动态网络资源、多媒体资源及导航资源等六大类(32小类)资源的选择和评估做进一步明确说明和规范(对资源的具体描叙见《资源分类说明书》)。

1、一般性原则说明
  学科门户一般不是通过自动化的手段来获取和组织信息,而是由人工(一般由学科领域的研究者来完成)选择和标引数据,这样可以更好的保证质量,且存储的信息通常是该领域的权威资料,使得学科信息门户成为有价值的网络信息服务。
  用户一般的检索结果只是对学科领域的相关文章做简单的标引的网页,或者只是提供对相关若干站点和文档等资源的直接链接,它只是利用数据库技术,方便用户查询起他网络的相关信息,本身并不储存深层次的内容。因而好的学科门户,应能为检索者提供一条同往该学科“隐蔽”资源的捷径,即提供“看不见的网站”,来扩展门户的内容与作用。

2、书目及电子资源
  ①数据库
  描述:即一般意义上的各类专业数据库及其相关使用信息。
  搜集方法:通过图书馆(学校、高校联机、国家数字图书馆),提供专业数据库的企业等机构,购买或协商获得相关数据库的使用权限;搜索网络上存在的公共或公益数据库过评估后方可著录。
  ②图书信息
  描述:即一般意义上的图书介绍及其相关信息,在Internet上主要以出版物目录的形式提供(包括印刷版图书的介绍信息、Internet电子版图书、出版商的图书目录、网上书店、以及其他种类的图书目录、书评等)。
  搜集方法:根据专业知识,按照主题重点收集具有学科影响的图书(信息),注意更新和向读者推荐。对收集到的图书信息的描述,应包括作者,介绍,关键词,学科领域,语言,URL(出版商或网络上的商业和非商业性的公司建立和维护的图书目录服务。通常这种图书目录服务会将图书名与一份订书单相链接,用户可以查看如何购买的信息)。
  ③连续出版物
  描述:即一般意义上的(专业)期刊杂志及其相关信息。
  搜集方法:收集专业权威和核心期刊杂志的链接。相关信息的描述应包括,期刊名称,介绍,学科领域(可交叉),语言,URL。对于印刷版的期刊,链接一般指向该期刊出版社的专门网页(通常有该期刊的出版目录,文章摘要),用户可以更清楚的了解更多信息。对于专在网上出版发行的电子期刊(注意使用权限,以便推荐),它没有相应的印刷版,用户只能在获得一定的授权后通过网络浏览、阅读和下载。对于尚没有网络链接的有价值的印刷期刊,在对其介绍时,应更详细一些。

3、文献资料
  ①学术论文
  描述:即与各级学科相关的学术论文。
  搜集方法:按学科主题分类,收集相关领域的学术论文(网站、网页)链接,论文数据库链接等提供有关学术论文信息的网站链接(部分或全文内容链接)。
  ②研究报告
  描述:即某一学科领域内或者某一项目的研究成果或学术著作。
  搜集方法:收集有价值的研究报告的网页(有该项目的具体介绍,部分或全部会议内容);收集专门提供某一学科领域专题研究报告的网站链接。
  ③会议录
  描述:即某一学科领域内具有一定规模和影响的学术性会议记录。
  搜集方法:按学科专业,收集具体的会议记录的网页链接。网页链接的内容一般应包括该会议的名称、主题、组织者、会议内容描述、组稿、会议论文的记录等信息。往往会议主办者会在专业的学术网站上发表会议召开信息信息,可作为动态新闻的进行报道和跟踪。
  ④统计资料
  描述:即各个学科的专题统计资料,年度统计资料等数据。
  搜集方法:收集相关学科领域的研究论文、报告(含统计资料)的网页链接,研究机构的相关统计网页,政府统计网站(及相关网页)或能链接到的具有统计数据的数据库数据表等。
  ⑤学科介绍
  描述:即按照学科分类对每个学科的介绍。
  搜集方法:收集相关学科的网页链接,可以是静态页面也可以是相关学科的网站链接,网页内容上应包括该学科的介绍,历史,发展,研究动态等。
  ⑥政府出版物
  描述:即按照学科分类的政府出版物、规划白皮书等信息。
  搜集方法:按学科分类收集政府出版物的相关链接。目前世界各国政府的主要部门机构均在Internet上设立了自己的站点,来发布政府的职能、人员、机构、政策、法规以及出版物信息等,一般比较容易和及时地收集到政府出版物的相关介绍,网络文本下载链接等。
  ⑦预印本
  描述:即学科专家学者在某个学科领域中的最新研究成果。
  搜集方法:预印本首先展现在网上,而后才会发表。按照学科专业,收集相关主题的预印本网页、网站链接。(例如,国家科技文献中心就提供预印本服务)
  ⑧讨论稿
  描述:即学术交流、讲座、会议或其他场合讨论得出的文稿。
  搜集方法:收集提供讨论稿介介绍、目录、出版信息、下载服务的学术型网站链接。(例如,北京大学中国经济研究中心的网站上,就有往年学术讲座的目录、介绍,并提供相关下载)
  ⑨传记
  描述:即某一学科领域内的学科带头人、专家、教授等介绍信息。
  搜集方法:收集介绍有关学科专家的网页,应包含该学科专家的生平,研究方向,发文信息,研究成果、项目成果等内容的介绍和评述。
  ⑩其他
  描述:无法归入上面各种类型的文献资料可放在该类中。
  搜集方法:提供相关网站和网页的链接。

4、组织机构
  ①研究中心
  描述:包括研究所、政府/国家实验室、研究中心、研究小组等。
  搜集方法:收集相关学科领域的研究机构、中心的网站或相关网页链接。
  ②政府机构
  描述:即与该学科相关的政府部门机构。
  搜集方法:收集国内外相关政府机构、部门的网站链接。
  ③大学院系
  描述:即各国大学相关学科的学系、专业院校等。
  搜集方法:可根据地域,提供不同国家和地区的大学院系的网站链接。
  ④图书馆
  描述:即网上图书馆,数字图书馆。
  搜集方法:收集、提供综合性和专业性的图书馆链接。按不同国家和地区划分。
  ⑤出版社
  描述:即综合性或专业出版社。
  搜集方法:收集国内外学科专业领域内具有影响力的出版社的网站链接。
  ⑥学会与组织
  描述:即各类学科领域相关的组织及学术研究的机构、学会等。
  搜集方法:主要收集国内外,具有影响力的综合性或专业性学会、与学术有关的政府机构、资助研究的基金组织等网站链接。
  ⑦公司
  描述:即各类提供信息产品和服务的商业机构。
  搜集方法:收集相关学科领域内包括产品生产、产品销售、产品服务等的商业机构的网站链接。可根据需要按照公司提供商品的类型如图书出版商、数据库提供商、软件产品服务提供商等划分。
  ⑧博物馆
  描述:即各种综合性或专业博物馆。
  搜集方法:收集不同国家和地区的的综合性或专业博物馆的网站链接。

5、动态网络资源
  ①新闻组
  描述:新闻组就像是一个可以离线浏览的BBS,它是个人向新闻服务器粘贴邮件的集合地。可以大量反映本领域的新闻动态,追踪热点。
  搜集方法:按照学科对新闻组进行分类,收集相关新闻组服务器链接的地址。
  ②讨论组/论坛
  描述:即Internet上各种以讨论共同话题为目标的服务,主要包括Mailing list、UseNet新闻组、基于Web的论坛、BBS等。
  搜集方法:按照专业主题收集包括Mailing list、UseNet新闻组、基于Web的论坛、BBS等资源。可以跟据讨论组的类型设置子类来对这些服务做适当分类。
  ③专家博客
  描述:即专家自己的网络日志。
  搜集方法:收集学科专家已有的博客,也可以是某一项目的专题博客或是在我们的门户网站上注册的博客链接,主要用来发表自己的最新成果等。
  ④教学资源
  描述:即网络教程、课件、课程教材、研究笔记、精品课程等资源。提供相关资源的链接。
  搜集方法:收集相关资源的链接。
  ⑤个人主页
  描述:即个人网页,个人可以是学科专家,高校大学老师,教授等。
  搜集方法:收集相关个人主页的链接。
  ⑥软件
  描述:即一般意义上的、各种可以在计算机上运行的程序及其相关信息。
  搜集方法:主要包括各种在情报学领域内常用的软件工具,可提供相关软件下载的网站链接。那些通过Internet提供在线计算的应用程序也应属于这一类。其他与软件有关的信息可作为软件的子类别,如软件开发商在作为公司的一个子类别的同时也可作为软件的子类别。

6、多媒体资源(多媒体所在的列表页面)
  ①图像资料
  描述:即属于某一科学领域内的各种图片信息。
  搜集方法:收集学科相关的可以提供大量可靠的学科图像资料网站的链接。
  ②音频资料
  描述:即属于某一科学领域内的各种音频信息。
  搜集方法:收集学科相关的可以提供大量可靠的学科音频资料网站的链接。
  ③视频资料
  描述:即属于某一科学领域内的各种视频信息。
  搜集方法:收集学科相关的可以提供大量可靠的学科视频资料网站的链接。

7、导航资源
  ①搜索引擎
  描述:即搜索引擎链接。
  搜集方法:收集各种比较常用和便利的搜索引擎链接。
  ②相关门户网站
  描述:即相关学科门户网站。
  搜集方法:按学科门类,收集各国专业的权威的学科门户网站的链接。