标签系统

作者: 杨呀 | 来源:发表于2016-12-17 22:48 被阅读756次

    前言

    不管你是一个什么样的社会角色,在数据横行霸道的这个时代,面对充斥着屏幕的巨型体量的数据信息,你该怎么管理?无奈的面对等待挑选的信息,你该如何选择?

    如果说这些数据被定义好了正确的属性,明确的内容特征,这时候是不是就解决了我面对数据时的无奈和尴尬。

    举个栗子

    画风突变一下

    来来来,我们来聊聊各种文胸;

    今天在公司做运营培训,多次提到文胸这个生活必需品,我们就拿它来搞事情。

    案例背景是这样的:小张、杨先生、李先生同去内衣店(为什么是同去?搞事情啊)

    小张:万年单身宅男,没交过女朋友,谁知道他为什么要去内衣店买文胸,进店后低着头说要普通文胸,黑色的。

    杨先生:跟女朋友如胶似漆(不是我),打算趁热打铁,送女朋友个礼物,要一套性感的情趣内衣,升级一下男女之间的革命友谊,大小暂时还不知道,要聚拢的,最好是黑色或红色的,有蕾丝,V型款式晚上回去不可描述...

    李先生:老婆下班前打电话,内衣坏了,你下班早,爱我就去帮我买个内衣,大小你知道,颜色素一点,无痕的,后双排搭扣。

    小张、杨先生、李先生,他们到内衣店会懵逼的,好多品种,好多颜色,布料不多,形式不少;怎么挑啊... ...

    让开让开让开,我来了(假装我是卖内衣的)

    我们要做的就是怎么帮助迷失在文胸中的男性同胞们,提供一个快速定位的解决方案!

    怎么做这个解决方案呢?

    文胸那么多,我们对文胸规整分类、标属性呀。

    站在商家角度:

    1、化分类

    文胸、情趣内衣、少女文胸、抹胸、塑身美体...

    2、标属性

    有无钢圈:无钢圈、有钢圈

    胸围尺码:70A,70B,70C,70D... ...

    模杯厚度:薄模杯、上薄下厚模杯、超薄杯... ...

    适合胸型:小胸、大胸、外扩... ...

    罩杯型:3/4罩杯、全罩杯、背心式... ...

    功能:聚拢、无痕、调整、上托... ...

    搭扣:后四排搭扣、后三排搭扣、后双排搭扣... ...

    使用季节:春季、夏季、秋季、冬季、全季... ...

    有无钢托:无钢托、有钢托

    款式:V型、U型、背心型... ...

    ... ...

    站在数据角度

    1、分类

    分类是一个将思想或事物进行识别、差异化和理性化的过程,他是对事物集合的一个宽泛的描述整理。

    就如同上面我们将各种文胸首先按应用类型进行归类一样。

    分类是抽象化,大纲级别。

    2、标签

    对应就是我们上面说的属性,他是对分类的进一步细分,是对商品的更加细化的描述。

    标签是实例化,关键词级别。

    我们将所有文胸进行了分类化、标签化,其实就是在数据概念里对资源的清洗、整理、特征提取。重新被明确特征后,我们想要找到目标资源还会手足无措么?

    章节

    一、Tag & Tagging

    Tag:是对信息进行描述的一种元数据;

    元数据是所谓描述数据/信息的数据;Tag是一种被普通用户或专家定义的,能够用来对资源进行描述的一种关键词。Tag是一种用户自创的元数据,特点是无层次结构、自定义。

    Tagging:是用户为资源进行赋予Tag的一种行为。

    tag这种设计,是http://del.icio.us开发者Joshua Schachter最早采用的,Joshua也曾经解释过,为什么他要用tag。

    摘录如下:

    据Joshua介绍,1998年他在做一个网站时,手头有大量链接需要保存,最初这些链接是被保存在一个文件中。随着保存的内容越来越多,为了更快捷地找到某个链接,他开始在链接后面加上单词的备忘,这就是后来的标签(Tags)。

    他说,“我希望借助电脑的帮助,把存储和取回分成两个独立的行为,因此当你给你存储的东西加上tags,你就可以更容易地取回它们。在这么做的时候,你取回其他人存储的东西也会变得更简单。tags促进并放大了这一点。”

    Delicious,Flikr等队标签的应用促进了标签的快速发展,现在已经成为了我们常见的对内容描述的功能。

    图书馆学者们很快发现,随着在社会化网站中tag被大量采用,它成为传统的本体论分类方式之外的一种新的分类方式,群体行为在某些情况下具有惊人的一致性,这种一致性产生了对事物的有意义的社会定义。这种新的分类方式,被称为“大众分类”(folksonomy)。

    精确性、唯一性,我们都习惯于传统信息组织的这些特性;这些特性常常会使用户对tag的理解上造成误区,我们会将传统信息组织的特性来要求大众分类,这就有点像传统数学家对解模糊数学的某种抵触。

    我们现在要从一片西瓜地里找出一个最大的西瓜,那是件很麻烦的事。必须把西瓜地里所有的西瓜都找出来,再比较一下,才知道哪个西瓜最大。

    西瓜越多,工作量就越大。如果按通常说的,到西瓜地里去找一个较大的西瓜,这时精确的问题就转化成模糊的问题,反而容易多了。由此可见,适当的模糊能使问题得到简化。

    二、Tagging不是一个万金油,有利也有弊

    关于标签这个东西,有人说好,好在他极大地方便了用户对数据的管理,使数据更加清晰,让无序的,杂乱的数据能够按指定的规则进行重整,极大提高了管理的效率和高效的数据挑选;

    同样有人说他不好,Tagging在分众分类法时,无法保证标签在数量和质量上的控制,用户在使用标签时,质量受环境、心情、理解等各种因素影响,有造成大量无意义的关键词的危险,这些低效能的关键词根本不能达到作为一个标签的要求。

    对于系统而言,标签定义的范围是否需要限制?Tag是否越多越好?尤其困难的就是我们根本无法提前预知被标签描述的资源,将来会发展成什么样。

    另外,Tagging本身对与用户来说就是一件具有学习成本的事情,用户本身对信息的描述可能就很陌生。

    我们能进行信息组织时,主要有两种:

    1、分众分类法(folksonomy):指大众自发利用Tag对信息进行描述、分类,构成与信息架构中。

    2、传统分类法(taxonomy):以专家意见或行业规则定义的,大众共识的一种标记方法。

    二者区别见下图:

    taxonomy VS. Folksonomy

    图片来自网络

    Tagging的优势

    结合vs图的对比,可归纳出Tagging的以下好处:

    1、使信息组织更经济、高效、灵活

    我们描述的资源处在一个高速成长,持续复杂化演进的过程中,随着信息越来越多,传统分类法和分众分类法的区别就会越来越明显;

    在高速成长的数据体量下,传统分类法的劣势愈发明显:开发、维护的成本不断增加;而基于标签、运用普通用户来维护的分类法则相反;

    更明显的是在当下的社会环境中,针对各个行业,数据越来越体现个性化,因为个人产生的数据越来越多,系统的分类、描述能力和效率可说远不如内容创造者本身。

    2、对信息的索引、描述更丰富

    a.传统分类法中因为控制词表(thesaurus)的存在,限定了严谨的规则标准,Tag固然没有传统分类的严谨,但一个资源是可以持续被无穷多个用户进行无穷多个标签的描述,在标签被重复描述到资源的过程中,大众对于资源的认知总会趋于几个大众方向,人们对资源的理解在数量上爆炸后总会惊人地趋于一致,这时候针对标签的搜索就有了不次与传统分类的获取。

    在针对一些图片、视频、音频进行描述标注时,传统分类的成本极高、效率更低,这时候Tagging的价值就会越发明显。

    b.Tag是一个开放的资源描述,这种描述的关键词一般是具备共享性质的,其分布往往呈长尾状收敛(Shirky, C. 2005)。

    给个标签及其使用频率,既可以反映大众对于资源认知上广泛一致性的定义,又不至于让小众意见(minority opinion)完全被淹没。

    两条deli.cio.us书签的Tag频率分布

    两条deli.cio.us书签的Tag频率分布

    图片来自网络

    3、更人性化的信息检索

    标签的应用最终优化的是搜索过程的高性能和结果的高匹配度,以及获取更多资源的可能性;

    当资源的种类和内容不断丰富(如Flikr的所有相片、Youtube的所有video),资源的接触点更多了,通过接触点用户对资源的描述也越加丰富,最终用户在海量的信息当中进行资源搜索时,也就能有更多的机会获得与搜索预期匹配的内容。利用大众对资源的理解,和描述的不断丰富,来让搜索更加语义化、人性化、社会化。

    小结:

    以上描述的都是标签在#社会性#上的优势,标签在标引信息时的一大特点在于#自我性#。

    Golder et al(2006)提出Tag大致在描述信息的7方面:

    1、它关于什么(主题、分类、属性等)

    2、它是什么(标题、类型等)

    3、谁拥有它(作者、协作者)

    4、修饰Tag的Tag

    5、它的品质(有趣、雷人等)

    6、自我参考(我买过的、我的书等)

    7、任务管理(待读、找工作等)

    标签因其高度自定义的特性,使用户在使用标签时,能够更加个性化地去描述资源,每个人对于资源的理解差异,需要这种个性化的支持来满足用户的理解差异。从最后3条我们就可以看出自我性的影子,

    这种自我性带来的好处是

    1、辅助个人信息管理

    同样因为标签的自定义特性,使用户可以对资源进行个性化的描述,使用户的使用场景(context)成为资源描述的一部分,例如:我喜欢这首歌,我想买这个手办,这类标签时传统分类所无法支持的。

    2、用户识别

    2.1当标签被频繁关联到用户,我们通过标签就可以更加清楚地认识到我们的用户,是一个什么样的画像,我们就可以针对用户进行个性化的推荐,或营销活动的精准化。

    例如:用户经常性的听一些歌曲,这些歌曲都带有#古典乐#标签,我们通过用户的听歌行为,可以分析出用户的个人偏好;

    网易音乐的个性化推荐

    网易云音乐个性化推荐

    2.2同样,如果一些标签被直接定义在用户身上,我们也可以直接读取到用户的标签形态,对用户进行一个清晰的认知。

    某营销云软件

    猜猜我是哪家软件

    Marlow et al (2006)与Ames & Naaman(2007)曾探讨用户Tagging的动机,表现出社会性自我性的结合

    社会性自我性的结合

    标签社会性、自我性的特点又会带来另外一个优势:社会化网络的构建

    标签总是有能力将人或物进行聚合。

    从单体角度讲,标签可以具象一个用户的特征属性,让用户更清晰。

    从群体角度讲,标签能将所有单体聚合成一个团体。

    举个例子:

    例如Flikr上一个语法错误、表意模糊的Tag,sometaithurts(so meta it hurts,如此“元级别”,如此痛),却聚集了来自各色用户的各色相片。

    Tagging的弊端

    Tagging最为人所诟病的特性有:缺乏一致性、歧义、语法错误

    这是由于与专家相比:

    大众是“懒惰”的:Tagging可能停留在粗浅的表层,而不做深入思考或精准描述。尤其当Tag与系统固有分类维度重合的时候,就会失去价值。

    例如为豆瓣上的电影打上“电影”这个Tag的意义是零。

    大众是“虚伪”的:有人会为了让自己出现在搜索结果更前面等目的而乱Tag;

    大众很“笨”:拼写问题:除了拼错字词,英文里词组的分隔、大小写、单复数等就会造成大量混乱的Tag;

    没记性:表现为个人在同一系统中使用不一致的Tag(如字面相异,意义相同等)来标注同一或相似内容。

    这些都会导致大量污染性的垃圾Tag,即所谓搜索结果中的噪音出现,从而降低检索效率。

    但这并非Tagging的致命伤,通过设计的引导是可以改善这些问题的。

    二、Tagging系统

    Tagging系统模型

    Marlow et al (2006)提出一个Tagging系统模型,包括资源、Tag、用户三部分,它们的关系如图:

    tag+resource+user

    一方面,标签可以同时用来描述多个资源,这些统一标签描述的资源彼此具有相似性,标签促使资源之间产生联系;

    另一方面,资源可以被多个标签进行描述,多维度的标签描述使得资源更加立体,标签的丰富性使得资源个轮廓更加清晰。

    站在用户的角度,通过标签对用户个性化的描述,更容易使用具有相同属性的用户聚集到一起,形成细分的概念,便于形成用户团体的社会化人群,或者方便企业更加精准的针对人群进行营销活动的触达。

    针对模型相应的设计维度

    Tagging系统的维度及设计启示

    Tag清理维护

    你能保证系统里的标签都是用户真正感兴趣的么?高度的标签自由度让我们对这一点没有说yes的勇气。

    举个例子:

    在一个视频网站中,用户可能对一个视频赋予了一个表示情绪的标签,比如“不好笑”(no funny)。

    但我们不能因此认为用户对“不好笑”有兴趣,并且给用户推荐其他具有“不好笑”这个标签的视频。

    相反,如果用户对视频打过“成龙”这个标签,我们可以据此认为用户对成龙的电影感兴趣,从而给用户推荐成龙其他的电影。

    标签控制

    在标签不断丰富的过程中,系统内标签的体量会越来越大,站在系统的角度来看,面对越发泛滥的的Tag我们什么都不做么?

    Gruber (2006)提出通过Tag内在的规范名(Canonical Name)对字面各异、实质相同的Tag进行清理。

    如通过算法将User Experience, UX, user_experience在系统内部统一为规范名User Experience。

    无论用户输入的是哪个形式的Tag,系统都将返回所有的结果。

    标签清洗

    在标签体系形成一定体量后,结合传统的机器索引、专家人工干预,等一切我们能够提高标签质量、控制标签数量的手段,进行适当的标签清理、聚合

    主要有三点:

    去除词频很高的停止词。

    去除因词根不同造成的同义词,比如 recommender system和recommendation system。

    去除因分隔符造成的同义词,比如 collaborative_filtering和collaborative-filtering。

    注:

    停止词:是由英文单词:stopword翻译过来的,原来在英语里面会遇到很多a,the,or等使用频率很多的字或词,常为冠词、介词、副词或连词等。

    Tag规范

    1、提供推荐tag建议,尽量引导用户规范输入。

    推荐选择+客户强制输入

    如罗列个人常用Tag,他人常用高频Tag,系统默认的推荐标签,可有效减少拼写相异语义重复的Tag,提高Tag之间关联性,并可减轻用户思考负担。

    根据用户的标签历史对用户进行高频、高质的标签直接添加(感兴趣标签)

    打标签基础形态

    根据用户输入内容,进行尽可能的内容匹配,引导用户对现有标签的选择,尽可能控制标签的数量

    候选交互引导标签的控制


    2、自定义标签与系统标签并存,自定义标签转化为系统标签。

    a自定义标签转化为系统标签

    b自定义标签自身通过事件模型进行目标搜索

    3、对用户Tag进行评级,Tag拥有权重体系。

    #草稿#

    权限最终应当是通过计算得出,不能简单的通过客户配置简单数字来实现

    规则

    标签作用范围(优惠码、人...)、使用频次(被打到资源上的次数)、使用时间(最近使用时间)、标签作用资源被产生的行为(商品被购买...)

    举例:

    品牌有 苹果、三星

    苹果被用来描述电脑+手机+pad...

    三星被用来描述手机、显示器...

    苹果被应用过,苹果权重+1,权重为1;三星没有被应用过,权重0;权重苹果高于三星

    苹果电脑被买过2,权重+2,权重为3;三星被应用过,权重为1,权重苹果高于三星

    1.7能搜索模糊搜索出标签+使用频次权重就行

    End吧

    Tag以及Tagging的社会性、自我性,能帮助实现个人化、社会化、情景化搜索

    但前提是:

    有更成熟的Tagging系统构建。

    底层技术上,目前对于垃圾Tag的收敛、清理,做得不够,也尚未良好地结合传统分类与大众分类。

    UI上,尚未实现有效引导用户去Tag系统已有维度之外、更具附加值的维度。

    如在豆瓣上打“友情”这个Tag是有价值的,但打“电影”就无甚价值了。

    卖文胸的,我们来谈谈合作吧,我们做标签的~

    注:部分图片内容引用自网络

    2016-12-17 22:24

    相关文章

      网友评论

      • 爱学习的梅梅:标签也是简短的评论,特别是带情感倾向的标签
        爱学习的梅梅:@呆呆大伟 谢谢。在豆瓣上,我给看过的书评分很少,但打标签蛮多。
        杨呀:@三只小糖猫 标签分两种,一种是系统标签,一种是自定义标签,系统标签是一种对资源描述的客观事实,是大众公认的一种结论,不能以评论的角度看,但自定义标签是大众对资源的一种主观认知,每个人对资源看法都不一样,这个可以用评论的眼光看它
      • 我是仔仔侠:当下,你是愿意面对远远超出你理解的,杂乱无章的数据,还是愿意从你关注的角度看数据,自己掌握这个大数据时代?标签就是答案!

      本文标题:标签系统

      本文链接:https://www.haomeiwen.com/subject/cxuqxttx.html