1、哈工大的自然语言处理工具(ltp) 的 Python 语言的库(pyltp)可以添加用户的自定义字典。使用的方法是:
seg.load_with_lexicon(cws_model_path, user_dict)
2、句法分析的开源系统也很多,但迄今为止,这些解析技术都还不够理想,仍旧很难找到高精度处理中文的句法解析系统
3、Stanford 的句法解析器包含三大主要解析器,分别是:
①PCFG 概率解析器:该解析器使用 A* 算法,是一个随机上下文无关文法解析器,是一个高度优化的词汇化 PCFG 依存解析器。支持中文,使用滨州中文树库作为训练数据。
输出数据格式:
图 1 、输出数据格式说明:第一行返回的 DependencyGraph 对象是解析结果,而第二行的元组则是 DependencyGraph 对象的值
②Shift-Reduce 解析器:基于移进-归约算法(Shift-Reduce)的高性能解析器。其性能远高于任何 PCFG 解析器,而且精度上比其他任何版本(包括 RNN)的解析器都更准确
疑问:什么是移进-归约算法?
疑问:是否支持中文呢?
③神经网络依存解析器:它通过中心词和修饰词之间的依存关系来构建出句子的句法树
4、中文分词的粒度分为粗粒度和细粒度。其中粗粒度将词作为语言处理最小的单位来进行切分,而细粒度则不仅对词汇进行切分,还要将词汇里的语素进行切分。如:
词汇:浙江大学
粗粒度切词结果:浙江大学
细粒度切词结果:浙江/大学
5、粗粒度切分主要用于自然语言处理的各种应用,而细粒度切分则主要用于搜索引擎
6、ICTCLAS 的中文分词算法的准确率达到 98%,召回率达到 98.5%,F1 值约为 98%。该算法的分词效果比之前的分词系统达到一个质变,使得高精度文本处理成为可能
7、基于半监督的条件随机场(semi-CRF)算法,对于处理不同领域的专有名词具有较低的成本和较好的效果的优势
8、ICTCLAS 的包含 30 万个常用词的免费版下载地址:http://ictclas.nlpir.org/
9、TF-IDF :词频-逆文档频率,其理论是在某类文档中出现次数越高但在其他类文档中出现的次数越低的词,越能用于区分某类文档跟其它类文档
公式:
TF-IDF = TF * TDF = count(某个词)/count(该词所在文档单词出现次数之和) * (count(所有文档数量) / (count(某个词所在文档数量)))
注:由于 TDF 的分母可能为 0 ,故一般会让分母 + 1
注:该公式是不完整的,仅仅是只计算了某个词
10、朴素贝叶斯模型在短文本分类上的精度很高
11、统计语言模型:用来计算句子中某种语言模式出现的概率
网友评论