第二课简单好用的中文分词利器 jieba 和 HanLP

两个安装方式和使用
这块的内容直接上他们github就可以看了，我特么实在懒得写。

jieba，之前一直在用。pip install jieba。但是问题在于其三个分词模式都只是很粗的切分，对于特定专业领域的分词处理就很鸡肋了。
HanLP，用过一次，是在处理WIKI文本的时候，好像对于特殊符号处理会有问题，但是其神经网络切分和NER做的很棒。pip install pyhanlp
另外THULAC还没用过，看知乎上评价准确率比其余的都好，只是效率有些慢。
最近2019年初汉语字形向量Glyce效果更好，所以在做的时候似乎可以多尝试一些新的模型。

自然语言处理N天-Day0201简单好用的中文分词利器 jieb
说明：本文依据《中文自然语言处理入门实战》完成。目前网上有不少转载的课程，我是从GitChat上购买，感觉买错了…...
中文分词工具及中文语料资源
关键词：中文分词；分词；自然语言处理；中文语料最近要做中文自然语言处理相关任务，牵涉到使用中文分词工具和相关算...
基于Trie 树实现简单的中文分词
中文分词简介中文分词是中文自然语言处理的基础，中文分词的正确率如何直接影响后续的词性标注（也有些词性标注算法不需...
1. jieba中文处理
jieba中文处理 1. 中文分词 jieba是一个在中文自然语言处理中用的最多的工具包之一，它以分词起家，目前已...
jieba分词详解
引言 “结巴”分词是一个Python 中文分词组件，参见https://github.com/fxsjy/jieb...
利用传统方法（N-gram，HMM等）、神经网络方法（CNN，L
自然语言处理中文分词利用传统方法（N-gram，HMM等）、神经网络方法（CNN，LSTM等）和预训练方法（Be...
中文分词方法
中文分词是中文自然语言处理的基础，现代语言分析处理算法基本是以词为单位进行计算的。 1、词典匹配词典匹配是分词最...
python 结巴分词学习
结巴分词（自然语言处理之中文分词器） jieba分词算法使用了基于前缀词典实现高效的词图扫描，生成句子中汉字所有可...
NLP自然语言处理-第三章中文分词技术
第三章中文分词技术 [toc] 本章将讲解中文自然语言处理的第一项核心技术：中文分词技术。在语言理解中，词是最小的...
中文分词算法初探之最大匹配
中文分词是中文自然语言处理中十分重要的基础性工作，基本后续的一切工作都依赖分词。本文主要探讨MMSEG这个分词系统...