美文网首页
10 主题模型 - 代码案例一 - LDA主题模型初识

10 主题模型 - 代码案例一 - LDA主题模型初识

作者: 白尔摩斯 | 来源:发表于2018-12-28 22:20 被阅读124次

    08 主题模型 - LDA
    09 主题模型 - LDA参数学习-Gibbs采样

    安装 lda 库
    使用第三方的lda库:import lda.datasets


    需求


    常规操作
    import numpy as np
    import pandas as pd
    import matplotlib.pyplot as plt
    import matplotlib as mpl
    import random
    
    import lda.datasets # 使用第三方的lda库
    from pprint import pprint
    
    1、 加载数据
    ### 词袋法&TF-IDF转换之后的X矩阵
    X = lda.datasets.load_reuters()
    print("训练文本数据X的类型: {}".format(type(X)))
    print("训练文本数据X的大小: {}".format(X.shape))
    print(X[:10, :10])
    
    
    ### 词汇表
    vocab = lda.datasets.load_reuters_vocab()
    print("\n词汇表数据类型: {}".format(type(vocab)))
    print("词汇表数据大小: {}".format(len(vocab)))
    print(vocab[:10])
    
    
    titles = lda.datasets.load_reuters_titles()
    print("\n文档名称对象数据类型: {}".format(type(titles)))
    print("文档数量: {}".format(len(titles)))
    pprint(titles[:10])
    

    2、数据测试

    下面是测试文档编号为64,单词编号为2119的数据,X[64,2119]:

    doc_id = 64
    word_id = 2119
    print("文档id: {} 单词id: {}".format(doc_id, word_id))
    print("-- 出现数量  : {}".format(X[doc_id, word_id]))
    print("-- 单词为    : {}".format(vocab[word_id]))
    print("-- 文档名称  : {}".format(titles[doc_id]))
    

    3、训练集和测试集获取
    random.seed(28)
    random.shuffle(X)
    X_train = X[:300]
    X_test = X[300:]
    print("训练集大小:{}".format(len(X_train)))
    print("测试集大小:{}".format(len(X_test)))
    

    训练集大小:300
    测试集大小:95


    4、模型训练

    n_topics: 给定主题的数目
    iter: 给定迭代次数,默认2000
    alpha: 给定主题分布的Dirichlet参数,默认0.1
    eta: 给定词分布的Dirichlet参数,默认0.01

    topic_num = 20
    model = lda.LDA(n_topics=topic_num, n_iter=500, random_state=28)
    model.fit(X_train)
    

    INFO:lda:n_documents: 300
    INFO:lda:vocab_size: 4258
    INFO:lda:n_words: 66760
    INFO:lda:n_topics: 20
    INFO:lda:n_iter: 500
    WARNING:lda:all zero column in document-term matrix found
    INFO:lda:<0> log likelihood: -819816
    INFO:lda:<10> log likelihood: -532386
    INFO:lda:<20> log likelihood: -512472
    INFO:lda:<30> log likelihood: -505420
    INFO:lda:<40> log likelihood: -500555

    ...
    INFO:lda:<460> log likelihood: -479203
    INFO:lda:<470> log likelihood: -479151
    INFO:lda:<480> log likelihood: -479064
    INFO:lda:<490> log likelihood: -478373
    INFO:lda:<499> log likelihood: -479039
    <lda.lda.LDA at 0x2541873e10>


    5、 模型预测,得到文档-主题映射关系

    doc_topic = model.transform(X_test)
    print("大小:{}".format(doc_topic.shape))
    pd.DataFrame(doc_topic).head()
    

    6、获取模型的主题词

    topic_word = model.topic_word_
    print("主题词数据类型: {}".format(type(topic_word)))
    print("主题词数量: {}".format(topic_word.shape))
    print(vocab[:3])
    print(topic_word[:, :3])
    

    主题词数据类型: <class 'numpy.ndarray'>
    主题词数量: (20, 4258)
    ('church', 'pope', 'years')
    [[2.29108793e-02 4.66887820e-02 5.82848593e-04]
    [7.98818405e-03 4.43541591e-06 6.21401769e-03]
    [2.65704462e-06 2.65704462e-06 6.37956414e-03]
    [2.30189725e-02 2.47489222e-06 2.97234555e-03]
    [3.37276012e-04 3.33936646e-06 3.33936646e-06]
    [4.82216994e-03 4.01512901e-06 6.42822154e-03]
    [4.06904353e-06 4.06904353e-06 5.70072999e-03]
    [4.93822195e-03 1.82829395e-06 6.40085710e-03]
    [7.99181461e-03 3.07259308e-06 3.07259308e-06]
    [1.08134799e-02 2.92177246e-06 4.09340322e-03]
    [6.55292546e-03 4.36570650e-06 4.37007221e-03]
    [1.39036744e-02 3.39031320e-06 3.39031320e-06]
    [2.79887247e-03 1.20179831e-03 3.99268540e-06]
    [1.56016463e-06 1.40570833e-03 3.43392235e-03]
    [3.59011373e-02 3.81886366e-06 1.60430462e-02]
    [1.65078597e-02 3.66759824e-06 3.66759824e-06]
    [3.57835524e-06 3.57835524e-06 3.57835524e-06]
    [1.91183301e-03 3.18108653e-06 1.05007666e-02]
    [1.26477681e-02 9.61522529e-02 2.18027376e-06]
    [2.50590140e-06 2.50590140e-06 1.05272918e-02]]

    for n in range(5):
        # 计算当前主题对应的所有词汇的概率
        sum_pr = sum(topic_word[n, :])
        print("主题: {} 概率和: {}".format(n, sum_pr))
    

    主题: 0 概率和: 1.0000000000001952
    主题: 1 概率和: 1.0000000000001659
    主题: 2 概率和: 1.0000000000000964
    主题: 3 概率和: 1.0000000000001859
    主题: 4 概率和: 0.9999999999998916


    7、每个主题中的前7个单词

    np.argsort => 对当前主题中各个单词的频率按照从小到大排序,返回索引值
    np.array(vocab)[np.argsort(topic_dist)] => 获取从小到大排序后的单词(频率/概率)
    np.array(vocab)[np.argsort(topic_dist)][:-(n + 1):-1] => 获取最后的n个单词

    n = 7
    for i, topic_dist in enumerate(topic_word):
        topic_words = np.array(vocab)[np.argsort(topic_dist)][:-(n + 1):-1]
        print('*主题 {}\n- {}'.format(i, ' '.join(topic_words)))
    

    8、计算输入前10篇文字最可能的topic
    doc_topic = model.doc_topic_
    print("文档主题数据类型: {}".format(type(doc_topic)))
    print("文档主题数据大小: {}".format(doc_topic.shape))
    for i in range(10):
        topic_most_pr = doc_topic[i].argmax()
        print(u"文档: {} 主题: {} value: {}".format(i, topic_most_pr, doc_topic[i][topic_most_pr]))
    

    文档主题数据类型: <class 'numpy.ndarray'>
    文档主题数据大小: (300, 20)
    文档: 0 主题: 5 value: 0.9873913043478262
    文档: 1 主题: 14 value: 0.9862318840579711
    文档: 2 主题: 5 value: 0.9917391304347827
    文档: 3 主题: 3 value: 0.7516746411483254
    文档: 4 主题: 13 value: 0.7900369003690035
    文档: 5 主题: 13 value: 0.5736401673640168
    文档: 6 主题: 13 value: 0.8024305555555554
    文档: 7 主题: 13 value: 0.8011070110701105
    文档: 8 主题: 13 value: 0.7833333333333334
    文档: 9 主题: 7 value: 0.9928571428571425


    9、画图
    mpl.rcParams['font.sans-serif'] = [u'SimHei']
    mpl.rcParams['axes.unicode_minus'] = False
    

    计算每个主题中单词权重分布情况:

    plt.figure(figsize=(8, 9))
    # f, ax = plt.subplots(5, 1, sharex=True)
    for i, k in enumerate([0, 5, 9, 14, 19]):
        ax = plt.subplot(5, 1, i+1)
        ax.plot(topic_word[k, :], 'r-')
        ax.set_xlim(-50, 4350)   # [0,4258]
        ax.set_ylim(0, 0.08)
        ax.set_ylabel(u"概率")
        ax.set_title(u"主题 {}".format(k))
    plt.xlabel(u"词", fontsize=14)
    plt.tight_layout()
    plt.suptitle(u'主题的词分布', fontsize=18)
    plt.subplots_adjust(top=0.9)
    plt.show()
    

    Document - Topic

    plt.figure(figsize=(8, 9))
    for i, k in enumerate([1, 3, 4, 8, 9]):
        ax = plt.subplot(5, 1, i+1)
        ax.stem(doc_topic[k, :], linefmt='g-', markerfmt='ro')
        ax.set_xlim(-1, topic_num+1)
        ax.set_ylim(0, 1)
        ax.set_ylabel(u"概率")
        ax.set_title(u"文档 {}".format(k))
    plt.xlabel(u"主题", fontsize=14)
    plt.suptitle(u'文档的主题分布', fontsize=18)
    plt.tight_layout()
    plt.subplots_adjust(top=0.9)
    plt.show()
    

    11 主题模型 - 代码案例二 - scikit-learn中的LDA模型
    12 主题模型 - 代码案例三 - scikit-learn中的LSA模型
    13 主题模型 - 代码案例四 - scikit-learn中的NMF模型

    相关文章

      网友评论

          本文标题:10 主题模型 - 代码案例一 - LDA主题模型初识

          本文链接:https://www.haomeiwen.com/subject/znlylqtx.html