Text mining and analytics第四学习笔记

作者: ruoruo弱弱 | 来源:发表于2018-01-11 16:50 被阅读0次

Text mining and analytics第四学习笔记
Human Capital Systems, Analytics
Human_Capital_Systems,_Analytics
FORECASTING HIGHLIGHT
4. Text Mining und Datenaufberei
数据流挖掘
全球最火的R工具包一网打尽，超过300+工具，还在等什么？（下）
Week 4 (Text Mining)
day1_1/31/2017
Day 6 text analytics

问题导读：

1）聚类是什么?聚类在文本挖掘和分析中的应用有哪些?

2）如何使用混合模型进行文档集群?这样的模型有多少个参数?

3）文档集群的混合模型是如何与一个主题模型(如PLSA)相关的?它们有什么相似之处?他们不同在哪里?

4）在估算混合模型的所有参数后，我们如何确定每个文档的集群?

5）分层聚集聚类是如何工作的?计算组相似度的单链接、完全链接和平均链接如何工作?哪一种计算组相似性对数据中的异常值最不敏感?

6）我们如何评估聚类结果?

7）文本分类是什么?什么是文本分类的应用?

8）分类的训练数据是什么样的?

9）朴素贝叶斯分类器是如何工作的?

10）为什么我们经常用对数表示朴素贝叶斯的得分函数?

关键词组：

集群、文档集群和术语集群。

集群的偏见

相似观点

混合模型，可能性，和最大似然估计。

EM算法，E-step, M-step，下溢，归一化(避免下溢 )

分层聚类，k-Means。

方向评价(聚类)、间接评价(聚类)

文本分类、主题分类、情绪分类、电子邮件路由。

垃圾邮件过滤

朴素贝叶斯分类器

平滑

文本聚类

一、文本聚类的目的

1.）什么是文本聚类?

聚类实际上是一种非常通用的数据挖掘技术，将类似的对象分组在一起，这些对象是文本对象。例如，文档、术语、段落、句子或网站。

2.）什么是自然的结构或自然的基团？如何定义相似性？

用不同方式看待事物，所以我们可能会得到不同的簇。必须定义评估相似度的透视图，称之为聚类偏见。相似度没有很好地定义，并且可以用不同的方法对对象进行分组。为了评估聚类，必须使用透视图，否则很难定义什么是最好的聚类结果。

3.）文本聚类的应用

1）可以通过使用主题模型来提取主题的顺序文本片段，

2）可以对较大的文本对象进行集群，文本对象可能包含很多文档。

4.）为什么文本聚类更有趣呢?

探索性文本分析

有时它们是关于同一个主题的，通过将它们联系在一起，我们可以对一个主题有更全面的报道。

可以使用文本聚类来在文本数据上创建一个结构；还可以使用文本聚类来在将文档聚在一起时，引入额外的特性来表示文本数据，我们可以将每个集群视为一个特性。

1）一个是集群搜索结果

搜索引擎可以将这样的结果聚集在一起，这样用户就可以看到返回查询结果的整体结构。查询的模糊性是特别有用的，因为集群可能代表了不同含义的歧义词。

2）根据客户的电子邮件了解客户的主要投诉

将电子邮件信息集中起来，然后在主要的集群中找到，我们可以理解他们的主要抱怨是什么。

二、如何进行文本聚类

1. 生成概率模型

1.）聚类问题的定义

主题概率与文本聚类主要区别：主题概率中一个文档有多个主题，而文本聚类中假设每个文档中只有一个主题

输出是改变的：所以不再有详细的覆盖分布pi i j，而是一个集群分配决策Ci。Ci是文档i的一个决定，也就是说现在我们用Ci来表示第i个文档，这个文档只属于【1，k】个主题中的其中一个，如果有k个主题和N个文档，在k< N的时候，有些文档必须是属于一个主题的（即共享一个主题），这也就达到了聚类的目的。。

2.)如何强制每个文档由一个主题而不是k个主题生成

由于主题模型允许多个主题为文档提供一个单词,违反了我们关于集群中文档划分的假设,所以需要改模型.

--------用混合模型来进行聚类

我们还需要做一个决定来决定使用哪个分配来生成这个文档,因为文档可能会从我们拥有的k个词分布中生成。但是这一次，一旦我们决定选择其中一个主题，我们将继续使用这个机制来生成文档中的所有单词。即文档只会使用一次特定的分布

a)如何推断出哪些分布被用来生成文档，从而使我们能够恢复文档的集群标识?

与主题模型比有两点不同:

1)选择:使用特殊的分布只对文档集群进行一次。而在主题模型中，它是用不同的词多次重复的。

2)单词分布: 一个分布将被用来重新生成一个文档的所有单词.而主题模型不需要一个分布生成文档中的所有单词,可以使用多个分布来生成文档中的单词。

b)似然函数是什么?

你可以看到文档聚类的混合模型，我们先取一个乘积，然后取一个和.这对应于我们的假设首先做出选择一个分布然后继续分布，它会生成所有的单词。这就是为什么我们把乘积放在和的里面。总和对应于选择。

在主题模型中，我们看到和实际上是在产品内部。这是因为我们独立地生成了每个单词。这就是为什么我们把产品放在外面的原因，但是当我们生成每个单词时，我们必须对我们使用的分布做出决定，所以每个单词都有一个和。但总的来说，这些都是混合模型，我们可以用算法来估计这些模型.

--------将把混合模型从2推广到k组

数据：文本集合C={d1,d2···,dN}

模型：k个主题，概率（由哪个主题生成该文本）

混合模型的参数：

不同于PLSA，这里由主题生成文本，概率p不依赖文档d

如何计算文档属于哪个群集

1）似然值（对于生成模型）

2）似然值+先验知识（对于大的群集）

-------

1)如何计算似然函数的值？

2) 常用EM算法来计算最大似然值

例子：我们有两个主题（这是一个只有两个类的聚类任务）

E-step: 计算该文档属于第一类的概率有多大

属于第2类的概率=1 - 属于第一类的概率：公式存在下溢（underflow）的问题。

下溢（underflow）：看看上述公式计算的分子和分布，如果一个文档的单词多，那么涉及分母部分与分子部分的乘积个数多，得到的数字比较大，被1减后计算出来的将是一个非常小的值，可能就会导致下溢（underflow）的问题。

为了解决下溢问题，我们需要使用一个标准化，

首先求得一个平均的概率，然后将它加入到似然函数的计算中。

E-Step我们可以看到我们估计哪个分布更可能生成文档d

M-step：从E-step中，得到p（Z=1|d），现在M-step要更新主题概率（词分布）和属于哪个主题生成的概率

总结：

2.基于相似度的方法

分别是单连接，全连接，均值连接

单连接：两个组织之间分别有一个人相互认识，则认为两个组织之间有关系，对异常值敏感

全连接：两个组织之间哪些太可能互相交谈的人会感到舒适且相互交流，对异常值敏感

均值连接：介于单连接和全连接之间，就是说两个组织之间差不多联系密切认为两个组织之间有关系，对异常值会变得不敏感

在实践中哪一个是最好的，这将取决于应用程序

而阈值由相似度函数计算。

K-means聚类

如何评估聚类结果?

1）直接评估法：

用“接近程度”衡量分类的好坏评估过程。给一个测试集，测试集上有已经聚好类的标准结果，用我们的模型聚类出一个结果，和标准结果对比，量化两个结果间的相似度（可以用F检验）

2）间接评估法：
用“有用程度”衡量分类的好坏评估过程。给一个测试集，用我们的模型聚类出一个结果，选择一个基本的聚类结果和我们聚类出来的结果进行对比，比较两个效果的好坏，之所以称之为聚类的间接评估，因为没有详细的聚类质量的测试，反而是评估某特定应用的聚类的贡献。

文本分类：

1.概述文本分类

1）文本分类是多样化的。

内在分类：文本属性的分类，例如主题，情感的分类；

外在分类：文章所属作者的分类等

分类的应用：新闻的分类；论文的分类；垃圾邮件检测；文章所表达的情感分类；作者信息。

2）文本分类的目的：增加文本的表达能力（使文本更容易理解）；推断文本属性。

2.文本分类方法介绍：

1）生成式的分类器（判断哪些数据应该分为一个类别）

2）区别式的分类器（判断哪些特征区分了不同的类别）

2.1生成式的分类器

用训练样本评估theta i 和P(w|theta i )的方法：

已知一些训练集和对应的分类（标签），估计theta i 和P(w|theta i ) 的方法如下图所示。

平滑化原因：在评估时，为了防止有0样本的出现，或是为了加入先验概率，或是为了加入权重区分样本。

下面是朴素贝叶斯的分类器评分函数，假设我们有两个类，如果比率是更大的, 那么它意味着它更有可能在第一类。因此, 越大的分数是更有可能的文件在第一类。

通过适当的权重设置, 我们可以期望这样的评分函数能够很好地对文档进行分类, 就像在朴素贝叶斯的情况下一样。我们可以清楚地看到朴素贝叶斯分类器作为这个通用分类的特例。实际上, 这个一般形式是非常接近的分类器称为逻辑回归, 这实际上是一种条件的方法或歧视的分类方法。

网友评论

本文标题：Text mining and analytics第四学习笔记

本文链接：https://www.haomeiwen.com/subject/ljaywxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！