标签系统

作者: 杨呀 | 来源:发表于2016-12-17 22:48 被阅读756次

标签学问
标签系统
标签系统
SAP Spartacus 的 TMS 和 Event Serv
标签系统推荐
推荐系统实践-标签系统
前端基本
《Web信息架构》读书笔记之---标签系统
需求说明书
HTML标签

前言

不管你是一个什么样的社会角色，在数据横行霸道的这个时代，面对充斥着屏幕的巨型体量的数据信息，你该怎么管理？无奈的面对等待挑选的信息，你该如何选择？

如果说这些数据被定义好了正确的属性，明确的内容特征，这时候是不是就解决了我面对数据时的无奈和尴尬。

举个栗子

画风突变一下

来来来，我们来聊聊各种文胸；

今天在公司做运营培训，多次提到文胸这个生活必需品，我们就拿它来搞事情。

案例背景是这样的：小张、杨先生、李先生同去内衣店（为什么是同去？搞事情啊）

小张：万年单身宅男，没交过女朋友，谁知道他为什么要去内衣店买文胸，进店后低着头说要普通文胸，黑色的。

杨先生：跟女朋友如胶似漆（不是我），打算趁热打铁，送女朋友个礼物，要一套性感的情趣内衣，升级一下男女之间的革命友谊，大小暂时还不知道，要聚拢的，最好是黑色或红色的，有蕾丝，V型款式晚上回去不可描述...

李先生：老婆下班前打电话，内衣坏了，你下班早，爱我就去帮我买个内衣，大小你知道，颜色素一点，无痕的，后双排搭扣。

小张、杨先生、李先生，他们到内衣店会懵逼的，好多品种，好多颜色，布料不多，形式不少；怎么挑啊... ...

让开让开让开，我来了（假装我是卖内衣的）

我们要做的就是怎么帮助迷失在文胸中的男性同胞们，提供一个快速定位的解决方案！

怎么做这个解决方案呢？

文胸那么多，我们对文胸规整分类、标属性呀。

站在商家角度：

1、化分类

文胸、情趣内衣、少女文胸、抹胸、塑身美体...

2、标属性

有无钢圈：无钢圈、有钢圈

胸围尺码：70A,70B,70C,70D... ...

模杯厚度：薄模杯、上薄下厚模杯、超薄杯... ...

适合胸型：小胸、大胸、外扩... ...

罩杯型：3/4罩杯、全罩杯、背心式... ...

功能：聚拢、无痕、调整、上托... ...

搭扣：后四排搭扣、后三排搭扣、后双排搭扣... ...

使用季节：春季、夏季、秋季、冬季、全季... ...

有无钢托：无钢托、有钢托

款式：V型、U型、背心型... ...

... ...

站在数据角度

1、分类

分类是一个将思想或事物进行识别、差异化和理性化的过程，他是对事物集合的一个宽泛的描述整理。

就如同上面我们将各种文胸首先按应用类型进行归类一样。

分类是抽象化，大纲级别。

2、标签

对应就是我们上面说的属性，他是对分类的进一步细分，是对商品的更加细化的描述。

标签是实例化，关键词级别。

我们将所有文胸进行了分类化、标签化，其实就是在数据概念里对资源的清洗、整理、特征提取。重新被明确特征后，我们想要找到目标资源还会手足无措么？

章节

一、Tag & Tagging

Tag：是对信息进行描述的一种元数据；

元数据是所谓描述数据/信息的数据；Tag是一种被普通用户或专家定义的，能够用来对资源进行描述的一种关键词。Tag是一种用户自创的元数据，特点是无层次结构、自定义。

Tagging：是用户为资源进行赋予Tag的一种行为。

tag这种设计，是http://del.icio.us开发者Joshua Schachter最早采用的，Joshua也曾经解释过，为什么他要用tag。

摘录如下：

据Joshua介绍，1998年他在做一个网站时，手头有大量链接需要保存，最初这些链接是被保存在一个文件中。随着保存的内容越来越多，为了更快捷地找到某个链接，他开始在链接后面加上单词的备忘，这就是后来的标签（Tags）。

他说，“我希望借助电脑的帮助，把存储和取回分成两个独立的行为，因此当你给你存储的东西加上tags，你就可以更容易地取回它们。在这么做的时候，你取回其他人存储的东西也会变得更简单。tags促进并放大了这一点。”

Delicious，Flikr等队标签的应用促进了标签的快速发展，现在已经成为了我们常见的对内容描述的功能。

图书馆学者们很快发现，随着在社会化网站中tag被大量采用，它成为传统的本体论分类方式之外的一种新的分类方式，群体行为在某些情况下具有惊人的一致性，这种一致性产生了对事物的有意义的社会定义。这种新的分类方式，被称为“大众分类”（folksonomy）。

精确性、唯一性，我们都习惯于传统信息组织的这些特性；这些特性常常会使用户对tag的理解上造成误区，我们会将传统信息组织的特性来要求大众分类，这就有点像传统数学家对解模糊数学的某种抵触。

我们现在要从一片西瓜地里找出一个最大的西瓜，那是件很麻烦的事。必须把西瓜地里所有的西瓜都找出来，再比较一下，才知道哪个西瓜最大。

西瓜越多，工作量就越大。如果按通常说的，到西瓜地里去找一个较大的西瓜，这时精确的问题就转化成模糊的问题，反而容易多了。由此可见，适当的模糊能使问题得到简化。

二、Tagging不是一个万金油，有利也有弊

关于标签这个东西，有人说好，好在他极大地方便了用户对数据的管理，使数据更加清晰，让无序的，杂乱的数据能够按指定的规则进行重整，极大提高了管理的效率和高效的数据挑选；

同样有人说他不好，Tagging在分众分类法时，无法保证标签在数量和质量上的控制，用户在使用标签时，质量受环境、心情、理解等各种因素影响，有造成大量无意义的关键词的危险，这些低效能的关键词根本不能达到作为一个标签的要求。

对于系统而言，标签定义的范围是否需要限制？Tag是否越多越好？尤其困难的就是我们根本无法提前预知被标签描述的资源，将来会发展成什么样。

另外，Tagging本身对与用户来说就是一件具有学习成本的事情，用户本身对信息的描述可能就很陌生。

我们能进行信息组织时，主要有两种：

1、分众分类法(folksonomy)：指大众自发利用Tag对信息进行描述、分类，构成与信息架构中。

2、传统分类法(taxonomy)：以专家意见或行业规则定义的，大众共识的一种标记方法。

二者区别见下图：

taxonomy VS. Folksonomy

图片来自网络

Tagging的优势

结合vs图的对比，可归纳出Tagging的以下好处：

1、使信息组织更经济、高效、灵活

我们描述的资源处在一个高速成长，持续复杂化演进的过程中，随着信息越来越多，传统分类法和分众分类法的区别就会越来越明显；

在高速成长的数据体量下，传统分类法的劣势愈发明显：开发、维护的成本不断增加；而基于标签、运用普通用户来维护的分类法则相反；

更明显的是在当下的社会环境中，针对各个行业，数据越来越体现个性化，因为个人产生的数据越来越多，系统的分类、描述能力和效率可说远不如内容创造者本身。

2、对信息的索引、描述更丰富

a.传统分类法中因为控制词表(thesaurus)的存在，限定了严谨的规则标准，Tag固然没有传统分类的严谨，但一个资源是可以持续被无穷多个用户进行无穷多个标签的描述，在标签被重复描述到资源的过程中，大众对于资源的认知总会趋于几个大众方向，人们对资源的理解在数量上爆炸后总会惊人地趋于一致，这时候针对标签的搜索就有了不次与传统分类的获取。

在针对一些图片、视频、音频进行描述标注时，传统分类的成本极高、效率更低，这时候Tagging的价值就会越发明显。

b.Tag是一个开放的资源描述，这种描述的关键词一般是具备共享性质的，其分布往往呈长尾状收敛（Shirky, C. 2005）。

给个标签及其使用频率，既可以反映大众对于资源认知上广泛一致性的定义，又不至于让小众意见(minority opinion)完全被淹没。

两条deli.cio.us书签的Tag频率分布

两条deli.cio.us书签的Tag频率分布

图片来自网络

3、更人性化的信息检索

标签的应用最终优化的是搜索过程的高性能和结果的高匹配度，以及获取更多资源的可能性；

当资源的种类和内容不断丰富（如Flikr的所有相片、Youtube的所有video），资源的接触点更多了，通过接触点用户对资源的描述也越加丰富，最终用户在海量的信息当中进行资源搜索时，也就能有更多的机会获得与搜索预期匹配的内容。利用大众对资源的理解，和描述的不断丰富，来让搜索更加语义化、人性化、社会化。

小结：

以上描述的都是标签在#社会性#上的优势，标签在标引信息时的一大特点在于#自我性#。

Golder et al（2006）提出Tag大致在描述信息的7方面：

1、它关于什么（主题、分类、属性等）

2、它是什么（标题、类型等）

3、谁拥有它（作者、协作者）

4、修饰Tag的Tag

5、它的品质（有趣、雷人等）

6、自我参考（我买过的、我的书等）

7、任务管理（待读、找工作等）

标签因其高度自定义的特性，使用户在使用标签时，能够更加个性化地去描述资源，每个人对于资源的理解差异，需要这种个性化的支持来满足用户的理解差异。从最后3条我们就可以看出自我性的影子，

这种自我性带来的好处是

1、辅助个人信息管理

同样因为标签的自定义特性，使用户可以对资源进行个性化的描述，使用户的使用场景(context)成为资源描述的一部分，例如：我喜欢这首歌，我想买这个手办，这类标签时传统分类所无法支持的。

2、用户识别

2.1当标签被频繁关联到用户，我们通过标签就可以更加清楚地认识到我们的用户，是一个什么样的画像，我们就可以针对用户进行个性化的推荐，或营销活动的精准化。

例如：用户经常性的听一些歌曲，这些歌曲都带有#古典乐#标签，我们通过用户的听歌行为，可以分析出用户的个人偏好；

网易音乐的个性化推荐

网易云音乐个性化推荐

2.2同样，如果一些标签被直接定义在用户身上，我们也可以直接读取到用户的标签形态，对用户进行一个清晰的认知。

某营销云软件

猜猜我是哪家软件

Marlow et al （2006）与Ames & Naaman（2007）曾探讨用户Tagging的动机，表现出社会性与自我性的结合

社会性与自我性的结合

标签社会性、自我性的特点又会带来另外一个优势：社会化网络的构建

标签总是有能力将人或物进行聚合。

从单体角度讲，标签可以具象一个用户的特征属性，让用户更清晰。

从群体角度讲，标签能将所有单体聚合成一个团体。

举个例子：

例如Flikr上一个语法错误、表意模糊的Tag，sometaithurts（so meta it hurts，如此“元级别”，如此痛），却聚集了来自各色用户的各色相片。

Tagging的弊端

Tagging最为人所诟病的特性有：缺乏一致性、歧义、语法错误。

这是由于与专家相比：

大众是“懒惰”的：Tagging可能停留在粗浅的表层，而不做深入思考或精准描述。尤其当Tag与系统固有分类维度重合的时候，就会失去价值。

例如为豆瓣上的电影打上“电影”这个Tag的意义是零。

大众是“虚伪”的：有人会为了让自己出现在搜索结果更前面等目的而乱Tag；

大众很“笨”：拼写问题：除了拼错字词，英文里词组的分隔、大小写、单复数等就会造成大量混乱的Tag；

没记性：表现为个人在同一系统中使用不一致的Tag（如字面相异，意义相同等）来标注同一或相似内容。

这些都会导致大量污染性的垃圾Tag，即所谓搜索结果中的噪音出现，从而降低检索效率。

但这并非Tagging的致命伤，通过设计的引导是可以改善这些问题的。

二、Tagging系统

Tagging系统模型

Marlow et al （2006）提出一个Tagging系统模型，包括资源、Tag、用户三部分，它们的关系如图：

tag+resource+user

一方面，标签可以同时用来描述多个资源，这些统一标签描述的资源彼此具有相似性，标签促使资源之间产生联系；

另一方面，资源可以被多个标签进行描述，多维度的标签描述使得资源更加立体，标签的丰富性使得资源个轮廓更加清晰。

站在用户的角度，通过标签对用户个性化的描述，更容易使用具有相同属性的用户聚集到一起，形成细分的概念，便于形成用户团体的社会化人群，或者方便企业更加精准的针对人群进行营销活动的触达。

针对模型相应的设计维度

Tagging系统的维度及设计启示

Tag清理维护

你能保证系统里的标签都是用户真正感兴趣的么？高度的标签自由度让我们对这一点没有说yes的勇气。

举个例子：

在一个视频网站中，用户可能对一个视频赋予了一个表示情绪的标签，比如“不好笑”（no funny）。

但我们不能因此认为用户对“不好笑”有兴趣，并且给用户推荐其他具有“不好笑”这个标签的视频。

相反，如果用户对视频打过“成龙”这个标签，我们可以据此认为用户对成龙的电影感兴趣，从而给用户推荐成龙其他的电影。

标签控制

在标签不断丰富的过程中，系统内标签的体量会越来越大，站在系统的角度来看，面对越发泛滥的的Tag我们什么都不做么？

Gruber (2006)提出通过Tag内在的规范名（Canonical Name）对字面各异、实质相同的Tag进行清理。

如通过算法将User Experience, UX, user_experience在系统内部统一为规范名User Experience。

无论用户输入的是哪个形式的Tag，系统都将返回所有的结果。

标签清洗

在标签体系形成一定体量后，结合传统的机器索引、专家人工干预，等一切我们能够提高标签质量、控制标签数量的手段，进行适当的标签清理、聚合

主要有三点：

去除词频很高的停止词。

去除因词根不同造成的同义词，比如 recommender system和recommendation system。

去除因分隔符造成的同义词，比如 collaborative_filtering和collaborative-filtering。

注：

停止词：是由英文单词:stopword翻译过来的，原来在英语里面会遇到很多a，the，or等使用频率很多的字或词，常为冠词、介词、副词或连词等。

Tag规范

1、提供推荐tag建议，尽量引导用户规范输入。

推荐选择+客户强制输入

如罗列个人常用Tag，他人常用高频Tag，系统默认的推荐标签，可有效减少拼写相异语义重复的Tag，提高Tag之间关联性，并可减轻用户思考负担。

根据用户的标签历史对用户进行高频、高质的标签直接添加（感兴趣标签）

打标签基础形态

根据用户输入内容，进行尽可能的内容匹配，引导用户对现有标签的选择，尽可能控制标签的数量

候选交互引导标签的控制

2、自定义标签与系统标签并存，自定义标签转化为系统标签。

a自定义标签转化为系统标签

b自定义标签自身通过事件模型进行目标搜索

3、对用户Tag进行评级，Tag拥有权重体系。

#草稿#

权限最终应当是通过计算得出，不能简单的通过客户配置简单数字来实现

规则

标签作用范围（优惠码、人...）、使用频次（被打到资源上的次数）、使用时间（最近使用时间）、标签作用资源被产生的行为（商品被购买...）

举例：

品牌有苹果、三星

苹果被用来描述电脑+手机+pad...

三星被用来描述手机、显示器...

苹果被应用过，苹果权重+1，权重为1；三星没有被应用过，权重0；权重苹果高于三星

苹果电脑被买过2，权重+2，权重为3；三星被应用过，权重为1，权重苹果高于三星

1.7能搜索模糊搜索出标签+使用频次权重就行

End吧

Tag以及Tagging的社会性、自我性，能帮助实现个人化、社会化、情景化搜索

但前提是：

有更成熟的Tagging系统构建。

底层技术上，目前对于垃圾Tag的收敛、清理，做得不够，也尚未良好地结合传统分类与大众分类。

UI上，尚未实现有效引导用户去Tag系统已有维度之外、更具附加值的维度。

如在豆瓣上打“友情”这个Tag是有价值的，但打“电影”就无甚价值了。

卖文胸的，我们来谈谈合作吧，我们做标签的～

注：部分图片内容引用自网络

2016-12-17 22:24

标签学问
标签系统在很多的模块中会使用到，如何设计标签系统。1、标签是否系统内置标签（用户只做选择）2、标签的长度限制3、每...
标签系统
前言不管你是一个什么样的社会角色，在数据横行霸道的这个时代，面对充斥着屏幕的巨型体量的数据信息，你该怎么管理？无...
标签系统
标签的样式 1、文字型情境式链接：根据用户使用情境和需求的指定链接【让用户写下他们认为的链接指向的内容】标题...
SAP Spartacus 的 TMS 和 Event Serv
大多数客户使用标签管理系统 (TMS) 向Storefront 添加额外的标签。添加这些标签以集成到其他系统，例如...
标签系统推荐
哔哩哔哩动画标签系统使用场景及功能描述标签的建立投稿自主输入标签投稿时点击主站推荐标签欣赏视频主动编辑标签（标...
推荐系统实践-标签系统
此文是根据《推荐系统实践》部分整理而来。 PART 1 介绍 GroupLens在一篇文章中表示目前流行的推荐...
前端基本
HTML常用标签 CSS盒模型标签分类 WEB页面加载流程 DOM CSSOM 布局系统栅格系统（BoostS...
《Web信息架构》读书笔记之---标签系统
《Web信息架构》读书笔记之---标签系统标签系统在网站中的应用很频繁，标签和分类相似，两者没有本质的区别。标...
需求说明书
名词解析目标系统：即我们为了解决问题而需要开发的系统，在此特指标签系统。被标记对象：需要用标签系统进行标记的对象...
HTML标签
样例：标题系统标签h1 - h66级标签换行标签空格全能标签注意所有html语言如果不用换行...