BERTopic

作者: 汉江岳 | 来源:发表于2022-07-12 14:48 被阅读0次

    BERTopic

    1. doc2vec (sentence BERT)
    2. doc_emb reduce dimension (UMAP)
    3. clustering to generate topics (HDBSCAN)
    4. find key words for every topic (class TF-IDF)


      BERTopic.png

    UMAP

    属于降维技术
    核心思想是在高纬度空间相近的点在低纬度空间也应该相近,反之亦然。
    涉及到:

    1. 计算每个点跟其他点的similar_score 加和等于 log2(neighbor_num)
    2. 根据t分布调整点与点之间的相对位置
      核心参数是临近neighbor的个数,需要调参。
      具体参考视频:https://www.youtube.com/watch?v=eN0wFzBA4Sc

    HDBSCAN 层次密度聚类

    自动聚类 不需要像k-means指定类簇个数

    1. Estimate the densities
    2. Pick regions of high density
    3. Combine points in these selected regions

    参考

    1. https://towardsdatascience.com/a-gentle-introduction-to-hdbscan-and-density-based-clustering-5fd79329c1e8
    2. https://pberba.github.io/stats/2020/01/17/hdbscan/
    3. https://hdbscan.readthedocs.io/en/latest/how_hdbscan_works.html

    相关文章

      网友评论

          本文标题:BERTopic

          本文链接:https://www.haomeiwen.com/subject/dpxabrtx.html