第一章
1.1 信息组织的环境与背景
- 信息检索工具的变化
- 手工检索时代:目录、题录、索引等。
- 计算机检索时代:各种检索系统,核心是数据库。
- 网络检索时代:检索型、目录型、混合型检索工具。
- 各种检索工具的涌现,目前互联网上运行的搜索引擎至少有几千种之多。
- 信息检索技术的进步
- 按照信息存储的载体和实现查找的技术手段,信息检索可以分为手工检索、机械检索、光电检索、计算机检索。
- 网络信息检索采用的检索技术包括:布尔逻辑检索、自然语言检索、多语种检索、字段检索、区分大小写检索、限制检索、二次检索、自然语言检索、多语种检索、加权检索、模糊检索、概念检索、相关反馈检索等。
1.2 信息组织的相关概念与内容
-
什么是组织
组织是一种为了创造次序与结构的有意识的行为 -
什么是组织系统
对资源进行有目的性地分类和提供资源交互的集合。
组织系统包括两个方面:资源与交互 -
组织系统的三层体系
用户界面、业务逻辑、数据 -
组织对象的种类
物理实体:实体书、地图、CD、DVD
关于物理实体的信息:图书馆卡片目录、传感器和射频识别标签
数字资源:电子邮件、电子书、MP3、视频。
关于数字资源的信息:数字图书馆目录、门户网站、聚合网站组织链接到其他数字资源 -
资源、文献与馆藏各指什么
资源通常上指一切能够支持目标导向活动的有价值的事物。
文献是通常用于数字或物理形式的信息资源。
馆藏是为有些目的所选择的一组资源。 -
什么是元数据
元数据是描述其它数据的数据,或者说是用于提供某种资源的有关信息的结构数据。 -
信息组织是什么
信息+组织
是根据信息的内容特征和外部特征,采用一定的原则和方法,对信息进行加工处理,使之有序可用的过程。
1.3 组织活动决策的6个方面
-
What is being organized?
- 不同组织系统的组织对象存在不同,如图书馆、博物馆、档案馆
- 当所需组织的资源包含相应的信息内容时,需要考虑的不仅是物理属性,更
- 多是概念或知识方面的特征,因而具有一定的挑战性。
越来越多的组织系统处理和组织的资源是原生数字资源
-
Why is it being organized?
- The central purpose of systems for organizing information [is] bringing like things together and differentiating among them.(信息组织的中心目的是集合相似的事物并加以区别)
- 交互是组织系统的原因
-
How much is it being organized?
- 不是所有文献都应具有相同的组织程度
- 影响因素:
- 范围和规模
- 目标用户数量和多样性
- 可用技术
-
When is it being organized?
- 资源被创造时
- 被添入一些集合时
- 被使用时
- 从不
- 一直(对于连续或者增量的资源)
-
How or by whom, or by what computational processes, is itbeing organized?
- 作者或创作者
- 专业组织者
- 普通用户
- 机构用户
- 自动处理
- 组织活动从资源产生时就开始发生,嵌入到资源的整个生命周期中。
-
Where is it Organized?
- 物理安排
- 数字资源的无形或无关安排
第二章
信息组织系统的4种活动
- 选择信息资源
- 选择是一个发现,识别,评估资源并纳入组织系统中某一集合的过程
- 选择的方法和标准因不同领域而异,但它们要确保资源能够实现“面向目标的活动“
- 选择与组织
- 选择和保留所有资源——信息过载、弱组织原则
- 选择在组织之前——需要一个一个地评估独特或罕见资源
- 选择和组织并发——同质或可预测的资源;
- 选择在组织之后——根据模式创建的资源
- 选择标准:基于某些特定目的效用价值、内在价值、最新、建立品牌或声誉、适于使用等
- 选择具有个体性
- 需要解决路径依赖的问题
- 选择与采样
- 如果你的目标是对样本进行推论而不需要研究其所有实例,则通过从大量群体中随机抽样来选择资源至关重要。
- 良好的统计样本是指被选资源和未被选资源在重要程度上没有不同。
- 组织信息资源
- 几乎任何资源的属性都可以用来组织它们,但是最适当或有效的属性因资源类型和任务而异
- 在资源创建或被选择之前,就应当决定在组织中使用哪些资源属性
- 设计基于资源的交互
- 对交互的要求
- 特定资源的交互能创造最大价值
- 不同交互的优先级通常由预期用户决定
- 便于被用户发现和调用
- 认识直接交互与中介交互
- 交互与价值创造:物理资源的价值创造、数字资源的价值创造、智慧资源的价值创造
- 功能可见性:功能可见性的交互不同于那些通过有意识的描述、整理或技术之后产生的“被设计的交互”
- 设计支持交互:利用物理资源、数字化资源和数据库
- 数字化与交互
- 对交互的要求
- 维护信息资源
- 维护包括确保资源在将来的某个时候可供使用或重用的一切活动。
- 组织与维护:我们如何组织资源的集合能决定维护的种类和难度。
- 选择与维护:维护需要符合选择标准,更小心地维护精心挑选的资源
- 保护:保护物质资源需要在防止其恶化的条件下,并改进访问或恢复资源的举措
- 文献修复
- 数字资源的保护
第三章
3.1 什么是资源
-
粒度:粒度是指对于特定信息资源属性的详细程度或精确程度水平
-
标识符:是一种特殊命名,它通过规则以受控的方式分配,规则定义可能的值和命名原则。
-
资源的名称:指的是对某一资源区别于其他资源的标签。
名称的选择往往受到多种因素的影响,如公众的可获取性、习惯语言类型、机构政策、个人以及文化偏见
3.2 资源的属性
-
资源域:每个资源具有一定的区别于其他资源的本质或类型
- 域是一个直观的概念,我们可以通过定义某一地点某一时间特设资源的分组,而不是基于天然或内在资源的任意分组。
- 对于物理资源而言,域的区别较为容易,即可以粗略根据物质容易感知的属性做物质类型的区分。
- 对于信息资源而言,容易被感知的属性往往不可靠和不相关,因此更多的是基于语义特征来进行域的区别。
- 信息资源可以被分类和分层,但有时候类别边界不清晰却更有益于从弱结构的叙事内容到高度结构化的事务性内容发现信息资源的域。
- 不同结构域或类型的文档可以根据被语义规定的内容区分,即通过其内部结构数量、呈现方式和内容结构的相关性。
- 域是一个直观的概念,我们可以通过定义某一地点某一时间特设资源的分组,而不是基于天然或内在资源的任意分组。
-
资源格式
- 无论是物理环境还是数字环境,信息资源都可以以各种格式存在。当涉及到信息资源的存储时,信息资源的格式就显得尤为重要。
- 虽然许多数字信息都可以用来关联物理的或者数字的资源,但是知道哪个是最原始或者最重要的信息资源十分的重要,特别是对于那些独特的或者有价值的信息资源而言。
- 数字信息资源的格式种类繁多,基本可以从两个维度进行分类和比较:内容表示显性化程度和内容与表示的分离程度
-
资源的能动性
- 代理是在某种程度上促使资源可以自发引起自身的行动。主要包括被动型与主动型。
- 被动型:组织系统中的被动型资源无处不在,这些资源通常是无形的,只有某些行动的触发才能使得他们变得有价值。
- 主动型:主动型资源通常依靠自己创造效益和价值,有时候也通过触发被动型资源产生。
-
智能性连续体:
- 感知与意识:是资源媒介感知周围环境和其他资源的互动的基础。但感知事物本身并不能为组织系统创造任何价值。
- 刺激:
- 当资源通过信息的感知采取行动时,才具备创造价值和影响的能力。
- 驱动器通常被用来描述可以控制物理机械或者系统的东西。
- 资源通过传输信息来驱使灯的开或者关。
- 关联:主动型资源要发挥自身的作用,就必须要与控制其他资源的驱动器相关联。
- 计算或计算力:主动型资源通常可以通过阅读传感器的信息,然后分析信息的内容并不断去调整行动。
- 可组合性与合作:智能的主动型资源不仅仅能够分析所搜集的信息和为之调整行为,还可以在共同遵守一定格式和规范的基础上,汇聚不同来源的信息来创造更大的价值。即开放、标准的数据格式和交流条款可以使得不同来源的信息聚合在一起,从而更好地进行分析,产生更大的价值。
-
描述性信息对于描述原始资源具有重要作用,通常被称为元数据。
-
对组织而言,区别原始资源和描述性资源是一件重要事情。
- 代理是在某种程度上促使资源可以自发引起自身的行动。主要包括被动型与主动型。
-
资源格式与焦点:将物理资源和数字资源的格式的对比与原始资源与描述性资源的对比结合起来就形成了以下的框架:
- A 物理形式描述物理资源
- 描述性资源与物理资源的关系是通过将描述性资源以物理形式进行编码。
- B 数字形式描述物理资源
- 数字形式描述物理资源最典型的案例就是通过图书馆在线目录定位实体图书馆资源的馆藏所在位置。
- 数字描述性资源是供应链管理中最重要的一环,他们描述了零售、运输以及每一个商品环节的准确和及时的信息,这些描述物理资源的数字资源包括了温度传感器和RFID标签等
- C 数字形式描述数字资源
- 描述数字资源的数字资源也就是对网络原生的信息资源进行描述。
- D 物理形式描述数字资源
- 报纸广告、马路广告商品货架上的可以被手机扫描商品或服务信息的二维码就是以物理形式描述数字资源。
- A 物理形式描述物理资源
3.3命名资源
- 为什么要给资源命名
给资源命名可以帮助我们寻找到资源、描述资源、复用资源、链接资源等。 - 资源命名中存在的问题
-
词汇问题
人们描述事物中所选择的单词与他们的经历和语境有关系 -
同义词、多义词、假同源词等
当资源有同义词或者多义词时容易被错误辨别,难以用自动化的程序确定其正确的表示方式 -
不恰当联系的命名
假同源,如在中国,4是不吉祥的数字,意味着死亡 -
通过假设常量属性的命名
通过假设常量属性来命名是建立在资源属性的基础上,但是随着资源本身的变化,其属性的含义也会跟着改变。 -
语义差距
指在命名和描述资源时,用自动化方式代替人为方式描述产生语义的差距。
-
- 选择好的命名和标识符(五个方面)
- 需要让命名有富含信息量
- 使用受控语言
- 允许别名
- 使标识唯一或者被限定
- 区分识别和解决
第四章:
4.1 资源描述
- 为什么要描述资源?
- 资源描述的目的是便于查阅、区分、检索这些资源,以及管理资源获取入口和保存这些资源。
- 当资源无法获取或使用时,资源描述通常是所描述资源的功能性替代品
- 资源描述的方法或框架(RDF)
- RDF:是一种计算机可处理的网络资源描述的标准模型,是语义网构建的基础
- RDF关键思想:使用URI识别在线资源,如网页,以及线下资源如人和国家。
eg:可以用http://im.sysu.edu.cn/指代中山大学资讯管理学院,而不仅是学院的网页 - RDF是一个框架,用来描述web资源。它使用Web标识符来标识事物,并通过属性与属性值来描述资源。资源是可拥有URI的任何事物,比如 http://www.jianshu.com/writer ;属性是拥有名称的资源,比如 author或 homepage;属性值就是某个属性的值,当然这个值也可以是另外一个资源。
- 资源,属性,属性值可以组合形成RDF陈述,分别称为陈述的主体、谓语和客体,也即RDF的三元组。显见,主体与属性必须是资源,客体则可以是资源或任意值。
- RDF使用XML编写,它的设计编写目的不是为了显示给人看,而是设计为可被计算机阅读和理解。
- 于是RDF信息会有若干种序列化形式,即可使用三元组表示<Subject><Predicate><Object>,亦可使用XML表示等。
- 资源描述的其他框架(MARC21:包括作者,标题,出版年,出版商和页码等)
4.2 资源属性
-
源属性类型
- 内在静态属性
- 外在静态属性
- 内在动态属性
- 外在动态属性
-
内在属性是资源所固有的属性,部分是静态的,也有动态的,但是是从资源内部发生变化,而不是由于外部行动或努力而改变,有时可用于标识符。
- 内在属性——物理属性
- 表面可见的物理的或可感知的属性
- 对于自然事物,这些物理属性非常适合进行描述
- 这些属性具有一定的特色或一致性、可预测性和关联性
- 对于人造产品,外观属性预测性较差,重要的是外观下所具有的功能。
- 对于物理形式的信息,外观与内容之间的关联因文档类型不同而不同。
- 内在属性——物理属性
-
外在属性是人为赋予的一种属性,部分外在属性是静态的:名字或识别符,部分外在属性是动态的。
- 外在属性——文化属性
- 文化属性来源于传统语言的使用或文化,或者涉及到与此类似的方面。
- 由于文化属性来源于文化或语言知识,因而对于缺少相同视角或经历的人来说是难以理解的。
- 外在属性——情境属性
- 与事物被描述时所处的情景或情境相关。
- 情境是指与用户、应用程度和周围环境之间交互相关的情景的特征化信息。
- 随着情境的改变,可能基于情境的描述会变得不再使用。
- 外在属性——结构属性
- 事物的内在或外在结构对于描述来说是有用的。
- 组成部分的数量或排列。
- 与其他资源的关联的数量和类型。
- 外在属性——文化属性
-
资源描述的7个环节
1)选择范围和焦点-
描述实例或馆藏: 确定资源粒度之后,就是确定是否需要分别描述这些资源
-
抽象化资源描述: 一个应用于整个资源类型的描述方案(如模型或元数据标准)
-
范围,规模与资源描述
- 随着要描述的资源的范围扩大和规模增长,资源描述的要求会越来越复杂。
- 相应地,资源描述的语言,从描述性术语列表,到带定义的词汇表,到有一定内容规则的受控词表,再到利用与其他上位词、下位词和相关术语之间的语义关系进行定义之后的叙词表
- 图书馆的书目描述很复杂:专业人员、AACR2的11类资源区分和数以百计的描述元素、合作描述、标准化和统一描述。
- 网络资源描述:DC元数据,15个元素、非专业人员。
2)确定目标
- 支持选择
- 发现:有哪些可用资源?
- 性能与兼容性:资源是否满足功能或兼容性需求?
- 鉴别: 如时间戳,水印,加密,校验码,数字签名等.
- 评估:资源的价值,成本,回报率,保存期限,相关的评分、排序或质量测度方式以及这些方式的质量如何?
- 支持组织
- 组织可以定义为:为描述和配置资源指定原则或条例以便实现更好的交互能力
- 实体资源通常根据其有形或可感知的属性,如大小,颜色,组成材料,形状等。
- 支持交互
- 书目记录功能需求FRBR 应用于组织系统的四个目的包括:
- 发现已经存在的资源
- 从资源集中选择一个资源
- 如果你只有该资源的描述,可以进一步获得这个资源: 物理形式与数字形式的方式不同
- 导航:当用户不清楚他们的信息需求时,使用关系性和结构化描述进行导航效果更好。
3)识别属性
- 任何资源都需要从多角度描述,这些描述均与不同属性相关,取决于交互类型和所处情境
- 不同类型资源需要包含不同的属性
- 资源描述中所使用的属性取决于描述的主体
- 概念层次相同的属性在实现层次可能不同。基于时间的资源的总结性描述具有非常大的挑战,如电影,歌曲等 。
4)设计描述词表
- 原则:用户便利性、表达性、充分性和必要性、标准化、整合
- 两大挑战:
- 需要额外的和特定的情境
- 原则之间可能存在一定的冲突
5)设计描述形式
- 描述用的标记符号、描述用的句法
6)编制资源描述
- 编制主体:资源、用户或计算或自动化手段的专业人士、作者或创造者
- 每个编制主体都有不同的特点,最好使用混合的方式取长补短。如,由终端用户为一个新的资源领域标记相应词汇,由专家进行精确之后再借助于软件工具利用分类器生成摘要
7)评价资源描述
- 依据一些标准或维度评估其质量
- 最常用的标准为:准确度,、完整性、一致性.
- 其他典型的标准如:时效性、互操作性、可用性.
-
第五章
-
描述关系的5种观点
- 语义学的观点: 联合的意义
- 词汇学的观点:如何用特定语言的单词来表达关系
- 结构上的观点:分析资源之间的关联、排列、接近或连接的模式(并经常忽略它们的原因)
- 架构上的观点:强调关系组成部分的数量和抽象级别一起表征其复杂性
- 实施层面的观点:如何以特定符号和语法实现关系,以及在某些技术环境中将关系排列和存储的方式
-
三种广义的语义关系(重)
- 包含关系(是一个……、是……的一种类型、是……的一部分、在……中)
- 归属关系(是……作者的作品、是……的配偶、是……的员工)
- 拥有关系(拥有)
-
本体(Ontologies)(重)和分类法(taxonomy)在表达语义关系上的区别
- 分类法可以捕捉到在某个范畴的种类包含关系的系统,但是除了种类包含关系之外还有很多种关系。这些其他类型的关系,都在表述着这个范畴的知识,对了解这个范畴或者多个范畴相关的资源或活动都有帮助。
- 众多的关系组成的网络可以创建出一种资源,叫本体。关于本体的视图,显示出它也具备一种分类法作为自身概念的展台。
- 本体,在某些组织系统,属于不可或缺的部分,特别是信息密集的系统,其资源的范围和规模需要一套全面而受控的描述词表
-
词汇关系的种类
- 下位关系和上位关系,这可对应种类包含关系,
- 转喻关系,这可对应部分-全部关系
- 同义关系,绝对同义或者命题同义
- 多义关系,具备多种含义
- 反义关系,严格的双分反义词对
-
叙词表对叙词关系的表达
- 人们在描述资源时自然使用的词语反映出他们独特的经历和观点,所以同一资源可能被不同词语来描述,不同资源也可能被同一词语来描述。
- 叙词表是一项参考性工作,根据语义与词汇的关系组织词语,被专业人士用于描述资源。
- 不同的范畴和主题领域都有各自的叙词表
- 在叙词表中,通常用宽含义和窄含义来表述上位和下位的种类包含关系
-
结构元数据(Structural Metadata):
以数据库或文档的概要模式,描述信息资源的种类,也可能包括组成部分的包含和归属关系的语法细节。可用于描述数据库表格间的关系,图书章节的关系或库存管理系统的各部分关系。
-
(重) 语义网(Semantic)和关联数据(Linked Data)
- 语义网在2001年提出
- 所有的信息都可以被自动工具和人类分享和处理
- XML的应用,包括RDF和OWL,使得网络更加语义化和网络资源关系更加显性化。
- 如Wikepedia,就是利用语义注释的模版鼓励用户以内容编码格式创建信息。
- “关联数据”运动是语义网的延伸,将网络架构的基本原则以更好的语义条目来重建。
-
(重)资源描述和获取(RDA)
- 很多编目研究者意识到,在线目录在编制文献书目关系上做得并不好,原因在于目录显示的设计和目录记录中信息组织的局限性。即使是MARC记录,内含的数据也不能被重复使用和重新排列。
- RDA,作为新一代的编目规则,希望将不相连的资源描述链接起来,呈现完整而相连的关于著作,作者,出版物,出版商和主题的数据。
- RDA利用RDF来揭示和存储书目资料中的关系。
- RDA将图书馆数据变得更广泛在线和可用,同时也希望利用语义网的分布特性,使得本身更具影响力。
第六章
-
类别的定义:
- 类别是指被同样对待的事物或抽象实体构成的类、集合或组。
- 这并不意味着一个类别的每个实体都是相同的,只是从某种角度来看,或者出于某种目的,我们基于它们的共同点将它们视为等同的。
- 当我们将某个事物视为某个类别的成员时,就意味着我们已经选择关注该事物的某种属性或角色,也意味着我们忽略了该事物的其他属性。我们大多数时候是自动和无意识地进行分类,但我们也可以有意识的方式去分类。
-
为什么分类:
- 分类不仅指某一个类别中包含哪些特征,也是关于哪些特征应该被排除在某一类别之外。
- 类别是应用先验知识的认知和语言模型; 创造和使用类别是必要的人类活动;类别使我们能够根据相似性和不相似性将事物彼此关联。
- 没有类别,世界将是一个没有组织的模糊的事物,彼此之间没有可理解的或难忘的关系。当然,我们仍然常常需要将某个事物标识为特定实例(instance),但是类别使我们能够理解它与其他实例是如何对应的。
-
如何分类:四种情境下的分类:文化类别、个人类别、机构类别、计算类别。
- 四种分类的理解:
- 文化类别可以理解为一种自然人认知能力,它是作为非正式和正式组织系统的基础。
- 个人类别倾向于在我们的个人活动中自发增长。
- 机构类别符合公司、政府和其他目标企业内部和之间正式协调配合的需要。
- 计算类别由计算机程序创建,用于信息检索,机器学习,预测分析和其他应用。
- 理解扩展:
- 个人类别和机构类别往往基于文化类别而形成的。
- 文化类别倾向于描述我们日常经验和我们积累的文化知识。 这些类别描述了物体、事件、设置、内部体验、物理定向,实体之间的关系以及人类经验的许多其他方面。
- 文化类别的学习没有明确指导,主要是受照顾孩子的人的影响,它们与特定文化背景下的语言习得和语言使用有关。
- 在组织系统中创建个人类别,以满足个人独特经验、偏好和资源收集所产生的特殊需求。
- 不同于文化类别,个人类别通常发展缓慢,持续很长时间。个人类别是为了回应某个具体状况或解决新的组织挑战而进行的有意识的活动。 因此,个人类别通常具有较短的使用寿命,并且很少寿命超过创建它们的人员。
- 个人类别与文化类别有两点不同
- 首先,个别类别有时具有想象力(imaginative)或隐喻(metaphorical)的基础,对创造他们的人而言是有意义的,但可能会扭曲或误解(distort or misinterpret )文化类别。
- 其次,个人类别通常是专门的或综合的文化类别(specialized or synthesized versions) ,可以捕捉特定的经历或个人历史。
- 机构类别是明确创建和使用的,最常见的是用于许多人相互协调。
- 机构类别通常在抽象和信息密集型领域(abstract and information-intensive domains)中创建,其中需要明确和精确(unambiguous and precise categories)的类别来规范和系统化活动,实现信息共享和重用,并降低交易成本。
- 机构类别不是描述世界本来的样子,而是通过赋予比文化类别更正式和专制(formal and arbitrary)的语义模型(semantic models)定义类别进而改变或控制世界。
- 计算类别由计算机程序创建,当资源数量,或与每个资源相关联的描述或观察数量极其庞大时,人们无法有效地思考这些类别。
- 可以使用描述性统计(descriptive statistics)来创建最简单的计算类别。
- 计算类别根据与最典型或最常见的相异之处而创建隐含的项目类别。
- 许多文本处理方法和应用程序使用简单的统计信息来按照语言、文档集合或单个文档中的频率来分类单词,并且这些类别在许多信息检索应用程序中被利用。
-
创建类别的7个主要原则
- 枚举
- 创建类别的最简单的原则是枚举; 有限或可数集合中的任何资源都可以被该事实视为类别成员。 该原则也称为扩展定义,集合的成员称为扩展项。 通过枚举将许多机构类别定义为一组可能的或合法的价值观,例如美国五十个州。
- 单个属性
- 我们以是否直观和有用作为识别实例或者描述实例的标准因此,当我们分析多个实例并对其进行比较和对比时,也应该以是否直观和有用作为考虑属性的标准,从而确定哪些实例集可以被视为类别或等价类。
- 资源的任何单个属性都可以用于创建类别,最容易使用的属性通常是内在的静态属性。 内在的静态属性是资源中固有的永远不会改变的属性。天然或制造物体的组成材料是可用于描述物理资源的内在和静态属性。
- 总体而言,用于为组织系统创建类别的最有用的单一属性是那些被正式分配,客观可测量和有序的,或与已建立的文化类别相关联的属性。
-
多个属性和等级
- 组织系统通常使用多个属性来定义类别。 有三种不同的方法来实现:
- 多层次或多层次分类
当使用相同的资源属性序列来布置组织系统中的所有资源时,这创建了逻辑等级结构,即多级类别系统。 - 资源子集的不同属性
使用多个资源属性在组织系统中创建类别的不同方式是对正在组织的资源的不同子集采用不同的属性。这与严格的多级别方法形成对比,其中每个资源都针对每个属性进行评估。这个原则用于计算机文件系统中的大多数文件夹结构以及许多电子邮件应用程序; 可以根据需要创建任意数量的文件夹类别,但任何资源只能放在一个文件夹中。 - 充分必要属性
一组大型的资源并不总是需要许多属性和类别来组织它。某些类型的类别可以只用一些基本属性来精确定义。
-
家族相似性
- 一般来说,基于对属性的显式和逻辑考虑的分类不太有效,并且有时甚至对于其中属性缺少可分离性,可感知性和必要性的一个或多个特征的域甚至不可能。 相反,我们需要使用统计而不是逻辑方式对属性进行分类,以得出要分类的资源和类别的其他成员之间的相似性或相似性的一些量度。
- 与同一时间赋予一个成员使用一个属性来分配类别成员不同,我们可以使用它们在复合或集成的方式来确定相似性。
-
相似性
相似性是一个非常灵活的概念,其含义取决于我们应用在什么领域。 相似性成为分类的有用机制的前提是我们必须明确相似性度量的方法。 有四种主要的方法提出了计算相似性度量:- 基于特征或基于属性;
- 基于几何;
- 基于队列;
- 变换
-
基于理论的类别
- 创建类别的另一个原则是以适合使特定分类合理的理论或形式组织事物。基于理论的类别是一种较好的方法,即使家庭相似性或相对于可见属性的相似性将导致不同的类别分配。
- 基于目标的类别
- 创建类别的最后一个原则是组织并处理资源以达到目标。 类别是由某个特定上下文中的特定目标导出或导出的。
第七章
-
Classification的涵义
- 作为名词,Classification称为分类法或分类表,是一种类别系统,即根据预先确定的一组原则对类别进行排序,并用于组织资源集合。
- 作为动词, Classification称为分类,是以系统化方式将资源分进设置好的类别系统(通常是机构类别)的活动。
-
分类法与标签的区别
- 分类法通常按照一种原则和系统化的方式实现,往往是精确、可靠的,可以有效地满足机构和商业性目的。但是,在个人或社会等非正式情境下,并不需要这么严谨的分类方式,因此出现了标签这种方法
- 标签:使用资源的任何属性和任何词汇来描述该资源,而不管该资源与其他资源之间具有多大的差异,从而构建一个类目系统。也可以称为社会分类法。
- 大众分类法,用于描述特定网站或应用的标签集合
- 标签分类法 :用户或社区建立一系列原则来管理标签,即一个意在以一种使标签更加系统化的新词。
-
分类表的排列形式
分类表是一种或多种组织原则的实现- 枚举式:一种明确将所有可能分配资源的类别列举的分类方表。
- 层级式:当所有的资源属性以一种固定的次序考虑,每一种构成分类系统中的一个等级的分类方案。
- 字母或年代顺序:按照字母顺序或按时间顺序排列,将这些组织原则视为创建一个含蓄的或潜在的分类系统,在该分类系统中仅根据需要生成类别。
- 分面分类:面最常见的类型是枚举(相互排斥);布尔(是或否);层级或分类(逻辑控制);连续谱(一系列的数值)。
-
分类法具有原则
- 类别定义的原则(枚举,属性,相似性和族相似性)体现在使用这些原则形成的分类法中。
- 但是分类法系统还需遵循其他的系统设计原则,这些原则反映了其目的、范围、规模、有效期限、可扩展性等。
- 一旦选择了这些设计原则,就应该始终遵循这些原则
- 原则不等于好或者唯一的方式
- 许多类别设计选择是主观的,需要相互妥协:资源的本质和资源领域的复杂性、分类目的、可投入资源的数量、开展分类工作的人和用户的能力。
-
原则镶嵌在分类表中
- 保障:类别及对应名称选择的理由是什么?
- 文献保障: 对我们所拥有的资源进行分门别类?
- 科学保障: 科学家和领域专家的角度
- 用户或使用保障: 普通用户的角度
-
分类层级的宽度和深度
- 取决于系统所组织的资源的多样性或异构性
-
将资源分配给类别的原则
- 唯一性原则 互斥性:每一种类型的资源只有一个细分
-
分类法维护的原则
- 分类系统需要持续多长时间?是否存在一种规则或方法来永久性地维护分类系统?
- 我们是一次性地类分资源或款目,还是可以随着时间更改类别和赋值方式
- 如果类别(和描述)的含义改变应该如何处理?
- 如果按照类别类分后的资源或款目改变应该处理?
- 分类如何才能具有灵活性/可扩展性(计算机科学家)/兼容性(图书馆学家)?即,对于组织系统来说,如要多大的剩余空间和组织空间进行协调以满足唯一性原则?
- 在一开始定义时构建多余的逻辑空间。
-
世界三大分类法的概况 DDC、UDC、LCC
1.杜威十进分类法 DDC
- 始于1876年的DDC是目前世界上广为使用的分类系统;使用数字符号因此易于用来定位图书馆中的资源;DDC是专有的需要从OCLC获得权限
- DDC分为10个大类,涵盖整个知识领域。每个大类可以进一步分为10个子类,每个子类再包括10个部分。
- 杜威的十进分类法是依据哈利的分类体系发展起来的。
- 《杜威分类法》的修订原则
1)照顾号码和等级制的学科体系的完整性和连续性。
2)与知识发展保持同步。
- 美国国会图书馆分类法LCC
- LCC有21个大类,由字母而不是数字进行编号
- 每个大类可以进一步进行多次细分,使得LCC类目层级较多,具有较强的实践性,但是缺乏一定的理论性基础。
- LCC偏向于适应于美国及国家管理层面的需求,且具有较长的历史。
3.国际十进分类法 UDC
- UDC由主表和辅助表及索引组成。主表分为10大类,辅助表有8个。
- 由于UDC 在等级列举制的基础上采取了多种符号进行组配,因而发展成一部等级列举与组配相结合的混合式分类法
- UDC 采用单纯阿拉伯数字作为标记符号。它用个位数标记一级类,十位数标记二级类,百位数标记三级类,以下每扩展(细分) 一级,就加一位数。每三位数字后加一小数点。
-
杜威十进分类法的特点
1.体系结构完整、严谨,类目详尽,层次清楚,易于理解,便于按学科进行检索。
2.采用严格的层累标记制,类号等级分明,具有较强的助记性,但有时号码过于冗长。
3.首创仿分、复分等具有组配性质的编号法。
4.最先为分类表编配详细的相关索引,提供一条简便的字顺检索的途径 。
5.拥有实力雄厚的管理机构,定期修订,使分类法不断得到更新。 -
什么是分面
- 通过将学科主题划分为同质或语义相关的类别所获得的术语分组
- 在分面分类系统中,每一种资源可以使用多个分面的属性加以描述,但是搜寻资源的代理不需要考虑所有的属性(即分面),也不需要以固定的顺序来考虑。
-
分面分类系统设计的五个步骤
- 范围
定义分类的目的,细化概念或资源的范围 - 选择每一个组面的取值
决定组面的逻辑类型和可能的取值;细化组面的取值顺序,包括字母、年代、处理过程、规模、流行程度、复杂性程度、地理或拓扑结构 - 组面识别
分析和描述资源样本实例以失却候选组面的属性或维度 - 设计组面层级和语法
检查组面之间的关系,如有必要创建子组面;决定如何组合各个组面 - 验证,迭代与精炼
利用新的实例对分类进行检验,修正各个组面和取值
- 范围
-
设计原则与范式
- 正交性:组面应该是相互独立的维度,确保一个资源涵盖所有组面的取值,且每一个组面只有一个取值,如在线厨房商店中,可能有产品和品牌两个组面
- 语义平衡:顶层组面应该是分类领域中对资源具有最佳区分能力的属性,取值应该具有相等的语义范围,使得资源分布在各个子类别中
- 覆盖范围:组面的取值应该能在预期范围内类分所有的实例
- 可扩展性:组面的值应该能适应需要潜在增加的一组实例,简单的方式是增加一个“其他”值
- 客观性:尽可能明确和具体
- 规范性:不使用特殊、隐喻或需要特定知识来解释的术语
第八章
-
使资源描述结构化的meta models 元模型
- 随着时间的推移,很多人都建立了类似的描述: 他们有类似的目的,期望得到的类似属性,并面临类似的问题。 这些描述已经融合了一些相同的决定。 在任何一个领域都能常见设计决策在教科书和设计实践中变得系统化,最终可能被设计成用于创建组织系统的标准格式和架构。这些正式被认可的设计决策被称为抽象模型或元模型。
- 元模型描述了资源描述和其他信息资源中常见的结构。 虽然组织系统的任何设计师通常都会创建一个他特定领域的模型,但他通常不会创建一个全新的元模型,而是从已被正式认可并纳入现有标准的元模型中进行选择。
- 所产生的模型有时被称为“领域特定语言”。标准元模型可以提高经济效益,因为开发人员可以用针对这些元模型设计的工具和知识,而不必从头开始。
-
建模的约束条件
-
指定词汇和模式
为特定领域的资源描述创建模型涉及指定这些描述的公共元素,并给出这些元素的标准名称,还可以指定如何将这些元素排列成较大的结构,例如,如何将它们排列成嵌套到trees的列表。 -
控制值
模型也可限制描述的值或内容。 有时,单个模型可用于将定义某些属性名称的术语和可用于属性值的术语。
-
-
符号和写作系统
-
符号
- ASCII 是用于数字环境的已经编码和标准化的符号示例。
- 计算机的每个字符都必须严格定义。不同的符号可能包括非常相似的标记,在非数字环境中,我们将依靠上下文来了解书面标记是否被用作音乐符号、数学符号或英文缩写的一部分。然而,计算机没有对上下文的直观理解,Unicode将number sign(日常生活中'#'的表现形式)和sharp sign(音乐中'#'的表现形式)编码看做两个不同的字符
-
写作系统
- 写作系统采用一个或多个符号,并添加一组使用它们的规则。 大多数写作系统都能认知到一种特定的人类语言。 这些书写系统被称为声门书写系统。 但是,有许多书写系统,如数学和音乐系统,这些都不与人类语言相联系。 用于描述资源的许多书写系统属于后者。
- 以自然人类语言为基础的声门书写系统难以准确,全面地描述。 非声门书写系统可以使用抽象模型进行准确和全面的描述。 这是上一节所采用的结构性观点与本节所采用的文本观点之间的联系。 非声门书写系统由特定元模型描述,并且适合于给定元模型的约束条件。
- 写作系统提供了将符号排列成有意义的结构的规则。 符号中的字符没有固有的含义,字符取决于写入系统上下文的内涵。
-
第九章
-
交互的前提条件:
交互的前提条件:整合,联接,聚类或合并资源以提供更广泛的资源和更同质的描述进行检索 -
交互的决定要素:
- 用户需求
- 资源如何以及被谁使用会影响如何显示资源或资源描述,通过什么渠道提供以及交互的精度和准确度。
- 用户信息需求决定了所需资源的类型和内容
- 用户信息需求的表现:搜索请求,如关键词或专业查询语言;浏览时一个或多个系统分类体系的选择。
- 资源属性层级
- 组织的范围越广、可识别的资源属性的数量越多,可提供的交互功能越强。
- 基于单个资源的属性、基于资源集合的属性、基于派生或计算的属性
- 社会政治和组织的约束
- 组织系统生产者的获取政策是交互设计选择的重要约束。
- 信息和经济力量的不对称性、标准、公共政策
- 组织的约束表现为多种矛盾性政策或甚至会导致在缺少额外投资的情况下无法将独立不相交的系统进行有效整合
- 具有不同价值贡献、策略、流程和实践惯例的组织单元,必须清晰的定义和优化不同的交互目标,对应和协调流程,构建合作能力,从而完成组织系统内部或之间的高度兼容
- 组织的约束比社会政治约束具有更大的不确定性
-
转换资源的资源属性层次
- 基础设施或符号转换
- 书写系统转换
- 语义转换
- 资源或资源描述转换
-
转换资源的模式
- 粒度和抽象
- 粒度是指对于特定信息资源属性的详细程度或精确程度水平。
- 抽象层次是从具体事例中抽象出资源描述的程度,以适应更广泛的资源
- 转换来自多组织系统的资源
- 传统方法:彻底的整合
- 计划将不同组织系统合并成一个聚合系统过程中对资源进行的转换称为数据映射或对齐
- 映射的目的包括:资源描述的简单交换,历时数据的获取,生成标准化的报告。
- 与映射类似,另一种直接的转换方法是使用对照表,即将组织系统之间的资源描述元素,语义和句法与词汇进行关联的等价表。
- 转换模式
- 除了映射和对照表之外,更有效的方法:为所有词表的映射使用一种词表或格式作为转换机制(也称为枢纽或枢纽语言)
- 另一种方法:在不对称权利关系中,强迫所有系统使用与最强大的一方相同的格式,如沃尔玛。
-
交互的实施三个基本步骤:比较资源、排列资源、定位资源
-
基于实例属性的交互:布尔模型
- 布尔逻辑操作符:与AND, 或OR, 非NOT
- 比较的结果要么为真要么为假,仅返回所有为真的结果。
- 布尔搜索对每一个返回的结果不再进行比较或排序,所有结果均视为相等。
- 优势在于,结果是可预测的且容易解释,缺点是用户很难找到最有用的资源
-
基于资源集属性的交互:向量空间模型
- 词频:是指术语在资源中出现的频次,为资源实例层次的属性
- 文档频率:是包含某个术语的资源的数量
- 逆文档词频:表示了一个术语在文档集中出现的频次,为资源集层次的属性
- 公式表示为:idft = log(N/dft) (N为文档总数)
-
基于其他属性的交互
- 基于派生属性的交互
- 基于流行性的排序
谷歌PageRank:一个网站被其他网站参考的链接数量 - 基于引用的搜索
在文献信息系统中使用的一种复杂而高效的信息检索技术
3.翻译
在检索或定位资源之后进行对资源进行转换,如字典或平行语料就是驱动翻译的外部资源
- 基于流行性的排序
- 基于派生属性的交互
-
基于多种资源的交互
- Mash-Ups
结合多种资源的数据,通过这种结合产生一种呈现新信息的交互 - 关联数据检索与资源发现
关联数据通过标准化或唯一的资源识别符URI对不同组织系统技术中的资源进行关联
- Mash-Ups
-
评估的交互三种方式:效率,有效性和满意度
- 交互是高效的:以一种及时且经济地方式执行;工程方面
- 交互是有效的:以正确且完整地方式执行;算法方面
- 交互是令人满意的:交互按照预期执行,高度依赖个人偏好和体验
-
评估的交互相关性
- 在讨论相关性问题时,通过包括如下视角:主题知识视角,主题文献视角,逻辑视角,系统视角,目标视角,针对性视角,实用主义视角,效用理论视角等。
- 相关性包括四个维度:
1)代理,文档,信息
2)查询,请求,信息需求和问题
3)主题,情境以及其结合
4)从问题产生到解决持续的时间 - 对组织系统而言,相关性是满足评估特定用户情境下和特定时间中已表述的或潜在的信息需求的有效性程度
- 为了正确的评估交互中的相关性,重要的先决条件是决定所需要考虑的相关性的概念。
-
评估的查全率与查准率
- 查准率测量结果集的准确性,即与查询相关的检索结果数量
- 查全率测量结果集的完整性,即资源集中被检索到的相关资源的数量
- 查全率与查准率之间的权衡:为了找到所有相关资源,系统需要检索尽可能多的资源,从而降低了查准率;为了保持较高的查准率,仅返回与搜索者相关的资源,交互很可能无法发现所有相关的资源,从而降低了查全率
- 组织原则的完整性和粒度对查全率和查准率之间的权衡具有较大的影响
网友评论