转自:https://www.zhihu.com/question/19929473
最近我们实验室整理发布了一批开源NLP工具包,这里列一下,欢迎大家使用。未来不定期更新。
2016年3月31日更新,在THULAC新增Python版本分词器,欢迎使用。
中文词法分析
包括中文分词、词性标注功能。已经提供C++、Java、Python版本。
中文文本分类
提供高效的中文文本特征提取、分类训练和测试功能。
THUTag: 关键词抽取与社会标签推荐工具包
GitHub - YeDeming/THUTag: A Package of Keyphrase Extraction and Social Tag Suggestion
提供关键词抽取、社会标签推荐功能,包括TextRank、ExpandRank、Topical PageRank(TPR)、Tag-LDA、Word Trigger Model、Word Alignment Model等算法。
PLDA / PLDA+: 一个高效的LDA分布式学习工具包
https://code.google.com/archive/p/plda/
知识表示学习
知识表示学习工具包
GitHub - Mrlyk423/Relation_Extraction: Knowledge Base Embedding
包括TransE、TransH、TransR、PTransE等算法。
考虑实体描述的知识表示学习算法
GitHub - xrb92/DKRL: Representation Learning of Knowledge Graphs with Entity Descriptions
词表示学习
跨语言词表示学习算法
Learning Cross-lingual Word Embeddings via Matrix Co-factorization
主题增强的词表示学习算法
GitHub - largelymfs/topical_word_embeddings: A demo code for topical word embedding
可解释的词表示学习算法
GitHub - SkTim/OIWE: Online Interpretable Word Embeddings
考虑字的词表示学习算法
网络表示学习
文本增强的网络表示学习算法
另外还有:(https://github.com/FudanNLP/fnlp)
网友评论