信息架构本质,第 3 部分: 组织复杂的信息

来源:百度文库 编辑:神马文学网 时间:2024/04/27 14:55:55
了解并创建受控词汇表
Benjamin Lieberman, Ph.D., 首席软件架构师, BioLogic Software Consulting, LLC
2008 年 6 月 30 日
有用的信息很少以整洁分类、标记或容易在内容管理系统中存储的形式出现。如果是这样,我们的工作该会轻松多少啊!相反,您必须分析要存档的信息,以确定对于存储和容易的检索来说可用和可维护的结构。为了建设性地使用信息,您选择的分类必须支持预期受众快速定位最相关资料的能力。
面对日益增多的在线和离线信息,创建可用的数据结构变得前所未有地重要。数据组织的目标是提供对由不同数据存储库表示的海量资源的访问。请考虑现在使用Yahoo、Google 或 Ask.com 执行的 Web搜索的常见示例。仅在几年前,富有成效的搜索可能还需要逐个页面地仔细搜索一个或两个值。今天,使用高级搜索算法,大多数搜索都可以在头几个页面中找到感兴趣的信息,或者可以基于突出显示的相关词条快速改进搜索。
要提供针对大型数据仓库的有用见解,第一步是生成一种引用信息的常见方法——换句话说,就是开发受控词汇表。




回页首
受控词汇表可以具有任何程度的复杂性,但是创建受控词汇表通常要求信息架构师具备对信息领域的深入见解。词汇表创建者使用诸如 ISO2788(请参见参考资料)等标准来建立用于特定分类层次结构的术语集。数据词汇表标准是管理特定信息集合的统一、经过测试和有效的方法。例如,存在用于对图书、音乐、电影、地图或其他项目进行分类的图书馆标准。该系统为熟悉图书馆标准的任何人提供了一种快速定位所关心信息的统一方法。
创建受控词汇表的最常见方法是使用常见的术语来描述信息集,以及将这些术语安排到单个具有根的层次结构中。例如:
石头 -> 岩石 -> 石灰石 -> 大理石 -> 印度绿大理石
如果了解地质学,这种结构将非常直观、普遍并且相对容易构造。本文的下一个部分将讨论四种不同类型的基于术语的受控词汇表结构。
另一种形式的词汇表标准是规范文件(authorityfile)。图书馆组织方案中经常使用规范文件来明确定义一组术语。法律中也广泛使用它们来建立特定法律条款的统一定义。通常只有在误解某个特定条款导致严重后果时,才会创建这些正式语言。例如,在诉讼案件中,由于自然语言歧义性导致的误解可能会导致巨大的财务后果甚至监禁。
相关但不太严格的受控词汇表是职业行话。某个行业(医疗、法律、科学、工程等等)中建立行话是为了实现快速而明确理解。职业行话需要有关特定主题的深入知识。存在许多行话的案例,但是由于大多数术语都没有得到官方认可,因此一个领域的一群工作者使用的行话术语可能与另一个领域的人使用的行话术语不同。结果,某个行话术语可能没有唯一的定义。由于这个原因,在将行话用于控制术语时应该非常小心。应该确保预期受众熟悉这些术语,还要确保这些术语定义良好并且非常稳定。
图标表示(Iconic representation)是另一种功能强大和受控制的信息表示方法。在这种类型的表示法中,信息分类由可视的图标形式而不是语言术语来表示。考虑一张预期由可能不讲本地语言的游客使用的城市地图。城市旅游景点和设施的图示表示要比标准语言表述更容易理解。但是这种方法要求熟悉所选符号的含义(例如表示医疗建筑的符号;在许多中东国家,表示医疗建筑的符号是红新月徽而不是红十字徽),从而使得图标表示法成为一种具有挑战性的方法。此外,即使在最好的情况下,使用图像或图标信息表示形式也很难植入层次结构思想。

下面的 20 个随机单词有助于说明每个人的心理图像如何影响信息的分组。每个人都具有与周围环境进行联系的不同方式,他们的偏好在选择什么分组分类方面变得非常明显,当一个人单独工作时尤其是如此。利用该单词列表(使用 RandomWord 生成的随机单词;请参见参考资料部 分),并在单独的一张纸上写下每个单词。现在,尝试将所有 20 个单词组织到合理的结构中。首先独自尝试该练习。然后在小组中重复该练习。冲突将不可避免地出现,因为每个人都尝试断言他或她的方法是“最佳”的。最终要 旨在于,创建受控词汇表的最有效方法是与许多其他小组进行协作。协作往往会矫正各个人的偏见。这是适合进行委员会式的设计 (design by committee) 的罕见情况之一!
TEAR、ARENA、ORGANIZATION、GUIDANCE、DESCRIPTION、SWEEP、GRAND、MOLECULE、 GENIUS、CALLING、ICE、QUEEN、INSTRUMENT、APPLICANT、LIMB、PLASTER、RELIEF、 SERIES、CONSTITUENT、COMPASSION
已经有许多优秀的资料来源讨论了不同种类的基于术语的受控词汇表,因此本文仅对它们进行简要的介绍(请参见参考资料部分)。在定义信息组织结构时,经常使用四种基本形式(按复杂性递增的顺序列出):
列表
同义词环 (Synonym ring)
面向方面的描述
词典
要理解词汇表类型之间的区别,一种方法是考虑不同的词汇表类型如何添加一个新的信息维度。例如,列表是一维结构,该结构基于所列信息的单个公共属性。如果要表示地球上存在的所有形式的石头的列表,则该列表将包含以下三项:熔灰岩、沉积岩 和变质岩。
同义词环向列表增添了另一个维度,允许从一个术语导航到另一个密切相关的术语。例如,Netflix使用先前的租借行为来推荐附加的电影节目选择。某个最初关注一组电影演员的人可以浏览相关的导演或音乐或情节,然后转移到流派、评论集萃、电影分类、连续剧等等。使用这种相关术语信息组织方法,用户可以快速浏览感兴趣的电影,并在用户未表示对特定建议分类感兴趣的情况下,可以将候选电影集从几万部减至很少。
一种特别是在 Web 上日益流行的方法是面向方面的组织方案。面向方面的项目描述最初由 S.R. Ranganathan开发,这种方法在信息可能属于多个分类时使用多个特征来提供交叉索引功能。其中每个方面就像是钻石表面上的一个小平面,反映了主体的一个不同方面(请参见图 1)。这种方法的主要优点在于,它允许通过建立新的方面来将新信息合并到现有的结构中。

最广泛使用的方法是完整的辞典。词典是对某个特定主题的最完整描述。除了同义词——相关术语 (RT)——和对其他层次结构的交叉应用——用于 (UF)——以外,辞典还添加了最后的维度收缩术语 (NT) 和扩展术语 (BT),其中收缩术语更特定于该主题,而扩展术语则更加广泛。
表 1 提供了一个辞典示例(来自美国地质勘探局)。
描述 生物圈的生物和非生物成分之中和之间发生的动态生物化学反应。
扩展术语 (BT) 生物和物理过程
收缩术语 (NT) 藻花、生物累积、生物地球化学循环、生物生产率、污染物运送、散布(有机体)、生态竞争、生态系统功能、富营养化、灭绝和根除、生境改变、迁移(有机体)、授粉、演替(生物)
相关术语 (RT) 生态、人口和群落生态学
用于 (UF) 环境过程、生态模型
基于辞典的信息组织模型包含最多的结构,并提供最强的搜索和筛选功能。但是构造该模型也是最困难和最耗时的。在作为信息架构的一部分着手生成完整的辞典之前,请确保了解预期受众的搜索和筛选需要。
组织信息的目的是为了快速确定和检索有用的数据。存在许多——实际上是无限数量——的方法来对信息集进行分组和排列。因此,确定“正确”的结构完全取决于将访问信息的方式。每个用户群体(也许是每个单独的用户)在访问信息存储库时,头脑中都有特定的目标。信息分析人员的职责是了解这些目标并选择最适合用户需要的策略。
几乎每个人都曾经面对过大海捞针的艰巨挑战。无论您是在迷宫式的图书馆书堆中搜寻的学生,还是搜索非常神秘的共享驱动器结构的业务人员,查找特定信息片段的需要都具有同样的重要性。区别在于用于定位该关键信息片段的方法。存在三种基本的搜索行为:
机会主义——多答案搜索(浏览)
专注——单一答案搜索(查找)
严格——深入了解搜索(研究)
机会主义搜索者凭本能行事;他们只有关于所要查找的内容的模糊概念,并基于找到的结果来改进搜索。要为这种类型的搜索组织信息,应该重视常用分类的确定(请参见下一部分中讨论的关于抽象的思想)。并且应该允许对常用术语进行自由范围的调查,例如同义词环所提供的术语。
专注的搜索者搜索特定问题的单个答案。他们希望通过将选项收缩到很小的候选信息集合,从而快速改进搜索。在此情况下,辞典很可能提供必需的筛选功能,并带有快速集中于所需答案的收缩术语。
最后,严格的研究者寻找对某个特定主题的深入了解。他们希望不要错过任何一条有用信息。多方面的信息组织方法最适合于这些学者,其中某个信息片段的每个方面可导致逐渐详细的了解。
虽然许多技能对信息分析人员来说都非常重要,也许最重要的是抽象和校平这两个孪生概念。抽象 技术用于发现不同数据元素中的共性,以确定公共根元素。校平 (Leveling) 是相似的内容在特定抽象级别上的分组。将这两个概念组合起来,您就可以创建有效的信息结构,以更好地满足特定用户群体的需要。
抽象涉及到发现一组项目的全局公共属性。然后可以将这些公共属性确定为一个组织层次结构中的基本元素的一部分。许多控制语言使用一个术语层次结构,这些术语的范围涵盖从更一般级别到更特定级别的描述。请考虑如图 2 所示的层次结构。

请注意,存在两种不同类型的大理石,每种类型可归入单独的子分类。每种类型从不同的地质过程形成,尽管它们具有共同的名称“大理石”。此外,每种类型具有差别非常大的化学结构,从而影响每种材料的使用方式。在此例中,某个搜索“大理石”的人可能不了解这些区别,因此对搜索结果感到混淆。为了防止这种混淆,每种类型的大理石应该将另一种类型作为相关术语(应该将煅烧大理石显示为与白云石大理石相关,并且应该将白云石大理石显示为与煅烧大理石相关)。
大多数层次结构都是一维的,从而意味着所有元素都具有一个公共的根元素。然而,在搜索或筛选时,通常必须按一组不同的特征集来引用某个元素。在这些情况下,多维层次结构是非常有用的,其中每个元素是多棵树的一部分。从前面的方面示例中可以看到这点,其中一个数据元素由多个特征进行描述。
与抽象相关,校平的概念是将信息项放在层次结构中正确级别的对等分类中。例如,大理石层次结构包括多种对等级别的大理石类型,例如石灰华、蛇纹石和缟玛瑙。之所以不将这些类型列在不同的标题下面,是因为它们全都具有白云石大理岩类型的特征。
在决定特定信息片段的级别时,务必考虑您打算要使用什么属性集。图书可能具有重量、价格和制作材料以及信息内容等属性。在决定应该将某一本特定的图书放在层次结构中的何处时,其中哪些属性相关呢?在生物学中,双名命名体系 (binomial system of nomenclature) 已证明对于基于外观组织不同的生物形式(表现型)非常方便,这种方法可以导致对没有亲缘关系的生物进行分组(基因型),原因只是由于它们在单独的环境中进化而形成相似的外观。实际上,选择属性意味着,在考虑哪些特征相关以及哪些特征不相关时,您应该小心避免混淆。




回页首
选择组织方案并填充术语层次结构是富有挑战性的任务。为指导该方法的开发,用于所选方法的有效性度量有时是非常有用的。可以使用许多方法来测量信息组织策略的有效性。最简单的方法是观察个人定位有用信息所花的时间长度,以及某个搜索因为失效而被丢弃的频繁程度。如果信息存储在网站上,您可以通过记录某人在单击某个链接之前浏览的信息页数,从而观察其用于定位信息的时间长度。一种更直观的技术与每个帮助页上有时很烦人的问题类似:“此信息是否有用?”这种技术使用户可以提供有关特定数据搜索和筛选方法有效性的反馈。
挑战不在于查找信息;相反,挑战在于使信息对某人有价值。要使某人实现信息的价值,您需要相应地组织数据以允许快速的发现和利用。按列表、同义词、方面和词典组织信息是四种已证明有效的常用方法。其中每种方法各有优缺点,您应该将这些优缺点与用户群体的需要进行平衡。
学习
您可以参阅本文在 develperWorks 全球网站上的英文原文。
订阅“信息架构本质”的 RSS。
阅读本系列的其他部分: “信息架构本质,第 1 部分: 数据和内容的两难抉择”。
“信息架构本质,第 2 部分: 管理企业信息”。
可以使用RandomWordPlus 网站来创建自己的随机单词集。
有关用于创建和显示信息主题(例如帮助项)的受控词汇表的示例,请参见“Darwin Information Topic Architecture (DITA)”。
有关基于方面的信息建模方法的最初出版物是 S. R. Ranganathan 编著的 Elements of Library Classification(孟买:Asia Publishing House,1962 年)。
请参阅 Louise Spiteri 博士撰写的“A Simplified Model for Facet Analysis”,以了解一种用于方面分析的简化方法。
有关 Web 上的另一种方面方法,请参见来自 William Denton 的“How to Make a Faceted Classification and Put It On the Web”(2003 年 11 月,于 2007 年更新)。
用于创建单一语言辞典的国际标准位于:“ISO 2788:1986 - Guidelines for the establishment and development of monolingual thesauri, International Organization for Standardization (ISO)”。
浏览技术书店,以了解有关这些技术主题及其他技术主题的相关书籍。
在 developerWorks 的Architecture 架构专区 中,获取用以提高您在体系结构方面的技能的各种资源。
通过架构新手入门 了解关于软件架构方面的基础知识。这里同时提供了 IBM 的体系结构原则,以及 developerWorks 上的其他架构资源,这些资源能够帮助您了解有关架构的更多信息。
在 developerWorks 的Information Management 信息管理专区 中,获取用以提高您在信息管理方面的技能的各种资源。
了解有关DB2 产品家族 的更多信息。
查看信息管理产品的演示。



Benjamin A. Lieberman 担任 BioLogic Software Consulting 的首席架构师,该公司提供与各种软件开发主题相关的服务,包括需求分析、软件分析与设计、配置管理以及开发流程改进等。Lieberman 博士还是一位著名的专业撰稿人,是 The Art of Software Modeling 和数目众多与软件相关文章的作者。Lieberman 博士拥有科罗拉多州立大学 (University of Colorado) 的生物物理学与遗传学博士学位