文档单位选择
-
粒度
-
定义:粒度是衡量文本所含信息量的大小。文本含信息量多,粒度就大,反之就小。
-
小粒度:“缠绵”,“崎岖”,“葡萄”这些词,虽然有两个字组成,但是仅表达一个意思,这些词的粒度是小的。
-
大粒度:而“篮球”,“鼠标垫”等词,是由简单词合成的,虽然也只有一个意思,但还可以拆分,如“篮”和“球”,“鼠标”和“垫”。这类词,粒度稍微大一些。
-
大大粒度:笔记本电脑”,“高清机顶盒”这样的词,粒度就更大了。
-
-
粒度小,召回多,建立倒排索引时,索引的长度就越长
粒度大,召回少,正确率高
-
与信息熵不同,此处的信息量是指
词条
- 词条化定义:词条化是将给定的字符序列拆分成一系列子序列的过程,其中每个子序列称为一个词条(token)。
![](https://img.haomeiwen.com/i13975801/f61796c48c057bb4.jpg)
-
问题
-
特定的词条需要被识别成词项
- 如编程语言“C++”和“C#”、“B-52”之类的飞行器名字或者叫“MAS*H”的电视秀节目
-
字符序列类型包括邮件地址
- (如jblack@mail.yahoo.com)、URL(如http://stuff.big.com/new/specials.html)、IP地址(如142.32.48.231)和包裹追踪号码(1Z9999W99845399981)如果这类数据需要词条化,那么利用正则是一个不错的办法。
-
空格拆分
-
San Francisco
输入 York University(约克大学) 时会返回包含 New York University(纽约大学)的文档。
-
-
-
aren't
-
德语 复合名词连写
-
中文没有空格 莎拉波娃现在居住在美国东南部的佛罗里达
停用词
-
一般不包含语义信息的词: the, a, and, to, be
-
汉语中的 “的”、“得”、“地”等等
-
然而 President of the United States
应用:关键词提取
词条归一化
-
定义:将看起来不完全一致的多个词条归纳成一个等价类, 以便在它们之间进行匹配的过程
-
方法:
-
隐式地建立等价类:anti-discriminatory和antidiscriminatory映射成词项antidiscriminatory
-
显示建立等价类:比如将car和automobile归成同义词
image
-
扩展词表
如果用户输入windows,那么我们希望返回包含Windows操作系统的文档。但是如果用户输入window,虽然此时可以和小写的windows相匹配,但是不太可能会和Windows操作系统中的Windows相匹配
image
-
-
问题
- 大小写转换问题 Fed (美联储)vs. fed(饲养)
词干还原和词性归并
-
词干还原:通常指的是一个很粗略的去除单词两端词缀的启发式过程
image
-
词形归并:通常指利用词汇表和词形分析来去除屈折词缀,从而返回词的原形或词典中的词的过程,返回的结果称为词元。
image
带有跳表指针的倒排记录表
![](https://img.haomeiwen.com/i13975801/8a2f1a479e9c721c.jpg)
![](https://img.haomeiwen.com/i13975801/89fe500547c592cc.jpg)
词条 词项
词条:一段文本中有效词的子序列,其中每个子序列称为一个词条,出现多次算多个词条
词条类:相同词条构成的集合。
In June, the dog likes to chase the cat in the barn.
12 个词条, 9个词类
词项:一个词项指的是在信息检索系统词典中所包含的某个可能经过归一化处理的词条类。(词项集合和词条集合可以完全不同,比如可以采用某一个分类体系中的类别标签作为词项。当然,在实际的信息检索系统中,词项往往和词条密切相关)
![](https://img.haomeiwen.com/i13975801/4d2061fe60336c19.jpg)
网友评论