前言
不管你是一个什么样的社会角色,在数据横行霸道的这个时代,面对充斥着屏幕的巨型体量的数据信息,你该怎么管理?无奈的面对等待挑选的信息,你该如何选择?
如果说这些数据被定义好了正确的属性,明确的内容特征,这时候是不是就解决了我面对数据时的无奈和尴尬。
举个栗子
画风突变一下
来来来,我们来聊聊各种文胸;
今天在公司做运营培训,多次提到文胸这个生活必需品,我们就拿它来搞事情。
案例背景是这样的:小张、杨先生、李先生同去内衣店(为什么是同去?搞事情啊)
小张:万年单身宅男,没交过女朋友,谁知道他为什么要去内衣店买文胸,进店后低着头说要普通文胸,黑色的。
杨先生:跟女朋友如胶似漆(不是我),打算趁热打铁,送女朋友个礼物,要一套性感的情趣内衣,升级一下男女之间的革命友谊,大小暂时还不知道,要聚拢的,最好是黑色或红色的,有蕾丝,V型款式晚上回去不可描述...
李先生:老婆下班前打电话,内衣坏了,你下班早,爱我就去帮我买个内衣,大小你知道,颜色素一点,无痕的,后双排搭扣。
小张、杨先生、李先生,他们到内衣店会懵逼的,好多品种,好多颜色,布料不多,形式不少;怎么挑啊... ...
让开让开让开,我来了(假装我是卖内衣的)
我们要做的就是怎么帮助迷失在文胸中的男性同胞们,提供一个快速定位的解决方案!
怎么做这个解决方案呢?
文胸那么多,我们对文胸规整分类、标属性呀。
站在商家角度:
1、化分类
文胸、情趣内衣、少女文胸、抹胸、塑身美体...
2、标属性
有无钢圈:无钢圈、有钢圈
胸围尺码:70A,70B,70C,70D... ...
模杯厚度:薄模杯、上薄下厚模杯、超薄杯... ...
适合胸型:小胸、大胸、外扩... ...
罩杯型:3/4罩杯、全罩杯、背心式... ...
功能:聚拢、无痕、调整、上托... ...
搭扣:后四排搭扣、后三排搭扣、后双排搭扣... ...
使用季节:春季、夏季、秋季、冬季、全季... ...
有无钢托:无钢托、有钢托
款式:V型、U型、背心型... ...
... ...
站在数据角度
1、分类
分类是一个将思想或事物进行识别、差异化和理性化的过程,他是对事物集合的一个宽泛的描述整理。
就如同上面我们将各种文胸首先按应用类型进行归类一样。
分类是抽象化,大纲级别。
2、标签
对应就是我们上面说的属性,他是对分类的进一步细分,是对商品的更加细化的描述。
标签是实例化,关键词级别。
我们将所有文胸进行了分类化、标签化,其实就是在数据概念里对资源的清洗、整理、特征提取。重新被明确特征后,我们想要找到目标资源还会手足无措么?
章节
一、Tag & Tagging
Tag:是对信息进行描述的一种元数据;
元数据是所谓描述数据/信息的数据;Tag是一种被普通用户或专家定义的,能够用来对资源进行描述的一种关键词。Tag是一种用户自创的元数据,特点是无层次结构、自定义。
Tagging:是用户为资源进行赋予Tag的一种行为。
tag这种设计,是http://del.icio.us开发者Joshua Schachter最早采用的,Joshua也曾经解释过,为什么他要用tag。
摘录如下:
据Joshua介绍,1998年他在做一个网站时,手头有大量链接需要保存,最初这些链接是被保存在一个文件中。随着保存的内容越来越多,为了更快捷地找到某个链接,他开始在链接后面加上单词的备忘,这就是后来的标签(Tags)。
他说,“我希望借助电脑的帮助,把存储和取回分成两个独立的行为,因此当你给你存储的东西加上tags,你就可以更容易地取回它们。在这么做的时候,你取回其他人存储的东西也会变得更简单。tags促进并放大了这一点。”
Delicious,Flikr等队标签的应用促进了标签的快速发展,现在已经成为了我们常见的对内容描述的功能。
图书馆学者们很快发现,随着在社会化网站中tag被大量采用,它成为传统的本体论分类方式之外的一种新的分类方式,群体行为在某些情况下具有惊人的一致性,这种一致性产生了对事物的有意义的社会定义。这种新的分类方式,被称为“大众分类”(folksonomy)。
精确性、唯一性,我们都习惯于传统信息组织的这些特性;这些特性常常会使用户对tag的理解上造成误区,我们会将传统信息组织的特性来要求大众分类,这就有点像传统数学家对解模糊数学的某种抵触。
我们现在要从一片西瓜地里找出一个最大的西瓜,那是件很麻烦的事。必须把西瓜地里所有的西瓜都找出来,再比较一下,才知道哪个西瓜最大。
西瓜越多,工作量就越大。如果按通常说的,到西瓜地里去找一个较大的西瓜,这时精确的问题就转化成模糊的问题,反而容易多了。由此可见,适当的模糊能使问题得到简化。
二、Tagging不是一个万金油,有利也有弊
关于标签这个东西,有人说好,好在他极大地方便了用户对数据的管理,使数据更加清晰,让无序的,杂乱的数据能够按指定的规则进行重整,极大提高了管理的效率和高效的数据挑选;
同样有人说他不好,Tagging在分众分类法时,无法保证标签在数量和质量上的控制,用户在使用标签时,质量受环境、心情、理解等各种因素影响,有造成大量无意义的关键词的危险,这些低效能的关键词根本不能达到作为一个标签的要求。
对于系统而言,标签定义的范围是否需要限制?Tag是否越多越好?尤其困难的就是我们根本无法提前预知被标签描述的资源,将来会发展成什么样。
另外,Tagging本身对与用户来说就是一件具有学习成本的事情,用户本身对信息的描述可能就很陌生。
我们能进行信息组织时,主要有两种:
1、分众分类法(folksonomy):指大众自发利用Tag对信息进行描述、分类,构成与信息架构中。
2、传统分类法(taxonomy):以专家意见或行业规则定义的,大众共识的一种标记方法。
二者区别见下图:
taxonomy VS. Folksonomy图片来自网络
Tagging的优势
结合vs图的对比,可归纳出Tagging的以下好处:
1、使信息组织更经济、高效、灵活
我们描述的资源处在一个高速成长,持续复杂化演进的过程中,随着信息越来越多,传统分类法和分众分类法的区别就会越来越明显;
在高速成长的数据体量下,传统分类法的劣势愈发明显:开发、维护的成本不断增加;而基于标签、运用普通用户来维护的分类法则相反;
更明显的是在当下的社会环境中,针对各个行业,数据越来越体现个性化,因为个人产生的数据越来越多,系统的分类、描述能力和效率可说远不如内容创造者本身。
2、对信息的索引、描述更丰富
a.传统分类法中因为控制词表(thesaurus)的存在,限定了严谨的规则标准,Tag固然没有传统分类的严谨,但一个资源是可以持续被无穷多个用户进行无穷多个标签的描述,在标签被重复描述到资源的过程中,大众对于资源的认知总会趋于几个大众方向,人们对资源的理解在数量上爆炸后总会惊人地趋于一致,这时候针对标签的搜索就有了不次与传统分类的获取。
在针对一些图片、视频、音频进行描述标注时,传统分类的成本极高、效率更低,这时候Tagging的价值就会越发明显。
b.Tag是一个开放的资源描述,这种描述的关键词一般是具备共享性质的,其分布往往呈长尾状收敛(Shirky, C. 2005)。
给个标签及其使用频率,既可以反映大众对于资源认知上广泛一致性的定义,又不至于让小众意见(minority opinion)完全被淹没。
两条deli.cio.us书签的Tag频率分布两条deli.cio.us书签的Tag频率分布
图片来自网络
3、更人性化的信息检索
标签的应用最终优化的是搜索过程的高性能和结果的高匹配度,以及获取更多资源的可能性;
当资源的种类和内容不断丰富(如Flikr的所有相片、Youtube的所有video),资源的接触点更多了,通过接触点用户对资源的描述也越加丰富,最终用户在海量的信息当中进行资源搜索时,也就能有更多的机会获得与搜索预期匹配的内容。利用大众对资源的理解,和描述的不断丰富,来让搜索更加语义化、人性化、社会化。
小结:
以上描述的都是标签在#社会性#上的优势,标签在标引信息时的一大特点在于#自我性#。
Golder et al(2006)提出Tag大致在描述信息的7方面:
1、它关于什么(主题、分类、属性等)
2、它是什么(标题、类型等)
3、谁拥有它(作者、协作者)
4、修饰Tag的Tag
5、它的品质(有趣、雷人等)
6、自我参考(我买过的、我的书等)
7、任务管理(待读、找工作等)
标签因其高度自定义的特性,使用户在使用标签时,能够更加个性化地去描述资源,每个人对于资源的理解差异,需要这种个性化的支持来满足用户的理解差异。从最后3条我们就可以看出自我性的影子,
这种自我性带来的好处是
1、辅助个人信息管理
同样因为标签的自定义特性,使用户可以对资源进行个性化的描述,使用户的使用场景(context)成为资源描述的一部分,例如:我喜欢这首歌,我想买这个手办,这类标签时传统分类所无法支持的。
2、用户识别
2.1当标签被频繁关联到用户,我们通过标签就可以更加清楚地认识到我们的用户,是一个什么样的画像,我们就可以针对用户进行个性化的推荐,或营销活动的精准化。
例如:用户经常性的听一些歌曲,这些歌曲都带有#古典乐#标签,我们通过用户的听歌行为,可以分析出用户的个人偏好;
网易云音乐个性化推荐网易音乐的个性化推荐
2.2同样,如果一些标签被直接定义在用户身上,我们也可以直接读取到用户的标签形态,对用户进行一个清晰的认知。
猜猜我是哪家软件某营销云软件
Marlow et al (2006)与Ames & Naaman(2007)曾探讨用户Tagging的动机,表现出社会性与自我性的结合
社会性与自我性的结合标签社会性、自我性的特点又会带来另外一个优势:社会化网络的构建
标签总是有能力将人或物进行聚合。
从单体角度讲,标签可以具象一个用户的特征属性,让用户更清晰。
从群体角度讲,标签能将所有单体聚合成一个团体。
举个例子:
例如Flikr上一个语法错误、表意模糊的Tag,sometaithurts(so meta it hurts,如此“元级别”,如此痛),却聚集了来自各色用户的各色相片。
Tagging的弊端
Tagging最为人所诟病的特性有:缺乏一致性、歧义、语法错误。
这是由于与专家相比:
大众是“懒惰”的:Tagging可能停留在粗浅的表层,而不做深入思考或精准描述。尤其当Tag与系统固有分类维度重合的时候,就会失去价值。
例如为豆瓣上的电影打上“电影”这个Tag的意义是零。
大众是“虚伪”的:有人会为了让自己出现在搜索结果更前面等目的而乱Tag;
大众很“笨”:拼写问题:除了拼错字词,英文里词组的分隔、大小写、单复数等就会造成大量混乱的Tag;
没记性:表现为个人在同一系统中使用不一致的Tag(如字面相异,意义相同等)来标注同一或相似内容。
这些都会导致大量污染性的垃圾Tag,即所谓搜索结果中的噪音出现,从而降低检索效率。
但这并非Tagging的致命伤,通过设计的引导是可以改善这些问题的。
二、Tagging系统
Tagging系统模型
Marlow et al (2006)提出一个Tagging系统模型,包括资源、Tag、用户三部分,它们的关系如图:
tag+resource+user一方面,标签可以同时用来描述多个资源,这些统一标签描述的资源彼此具有相似性,标签促使资源之间产生联系;
另一方面,资源可以被多个标签进行描述,多维度的标签描述使得资源更加立体,标签的丰富性使得资源个轮廓更加清晰。
站在用户的角度,通过标签对用户个性化的描述,更容易使用具有相同属性的用户聚集到一起,形成细分的概念,便于形成用户团体的社会化人群,或者方便企业更加精准的针对人群进行营销活动的触达。
针对模型相应的设计维度
Tagging系统的维度及设计启示Tag清理维护
你能保证系统里的标签都是用户真正感兴趣的么?高度的标签自由度让我们对这一点没有说yes的勇气。
举个例子:
在一个视频网站中,用户可能对一个视频赋予了一个表示情绪的标签,比如“不好笑”(no funny)。
但我们不能因此认为用户对“不好笑”有兴趣,并且给用户推荐其他具有“不好笑”这个标签的视频。
相反,如果用户对视频打过“成龙”这个标签,我们可以据此认为用户对成龙的电影感兴趣,从而给用户推荐成龙其他的电影。
标签控制
在标签不断丰富的过程中,系统内标签的体量会越来越大,站在系统的角度来看,面对越发泛滥的的Tag我们什么都不做么?
Gruber (2006)提出通过Tag内在的规范名(Canonical Name)对字面各异、实质相同的Tag进行清理。
如通过算法将User Experience, UX, user_experience在系统内部统一为规范名User Experience。
无论用户输入的是哪个形式的Tag,系统都将返回所有的结果。
标签清洗
在标签体系形成一定体量后,结合传统的机器索引、专家人工干预,等一切我们能够提高标签质量、控制标签数量的手段,进行适当的标签清理、聚合
主要有三点:
去除词频很高的停止词。
去除因词根不同造成的同义词,比如 recommender system和recommendation system。
去除因分隔符造成的同义词,比如 collaborative_filtering和collaborative-filtering。
注:
停止词:是由英文单词:stopword翻译过来的,原来在英语里面会遇到很多a,the,or等使用频率很多的字或词,常为冠词、介词、副词或连词等。
Tag规范
1、提供推荐tag建议,尽量引导用户规范输入。
推荐选择+客户强制输入
如罗列个人常用Tag,他人常用高频Tag,系统默认的推荐标签,可有效减少拼写相异语义重复的Tag,提高Tag之间关联性,并可减轻用户思考负担。
根据用户的标签历史对用户进行高频、高质的标签直接添加(感兴趣标签)
打标签基础形态根据用户输入内容,进行尽可能的内容匹配,引导用户对现有标签的选择,尽可能控制标签的数量
候选交互引导标签的控制2、自定义标签与系统标签并存,自定义标签转化为系统标签。
a自定义标签转化为系统标签
b自定义标签自身通过事件模型进行目标搜索
3、对用户Tag进行评级,Tag拥有权重体系。
#草稿#
权限最终应当是通过计算得出,不能简单的通过客户配置简单数字来实现
规则
标签作用范围(优惠码、人...)、使用频次(被打到资源上的次数)、使用时间(最近使用时间)、标签作用资源被产生的行为(商品被购买...)
举例:
品牌有 苹果、三星
苹果被用来描述电脑+手机+pad...
三星被用来描述手机、显示器...
苹果被应用过,苹果权重+1,权重为1;三星没有被应用过,权重0;权重苹果高于三星
苹果电脑被买过2,权重+2,权重为3;三星被应用过,权重为1,权重苹果高于三星
1.7能搜索模糊搜索出标签+使用频次权重就行
End吧
Tag以及Tagging的社会性、自我性,能帮助实现个人化、社会化、情景化搜索
但前提是:
有更成熟的Tagging系统构建。
底层技术上,目前对于垃圾Tag的收敛、清理,做得不够,也尚未良好地结合传统分类与大众分类。
UI上,尚未实现有效引导用户去Tag系统已有维度之外、更具附加值的维度。
如在豆瓣上打“友情”这个Tag是有价值的,但打“电影”就无甚价值了。
卖文胸的,我们来谈谈合作吧,我们做标签的~
注:部分图片内容引用自网络
2016-12-17 22:24
网友评论