分词

分词

作者: 小眼睛的露鹿酱 | 来源:发表于2019-04-10 10:01 被阅读0次

Elasticsearch实现中文、拼音分词、繁简体转换高级搜索
初中英语语法(010)-分词
【英语】语法俱乐部_6_分词
分词
ES中文分词器之精确短语匹配（解决了match_phrase匹配
配置Hanlp自然语言处理进阶
elasticsearch之八分词器
【告别巴别塔】英语的真相
分词练习1——分词工具包
elasticsearch分词器

分词背后的技术

现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于目前就是基于规则，理解和统计的分词方法。

基于词典匹配方法：字符串匹配以及机械分词等

- 正向最大匹配：从左到右，从最大词到最小，第一个到最后一个
- 邻近匹配算法
- 逆向最大匹配算法：优于正向
- 双向最大匹配算法：正反匹配后取重合
- 最短路径匹配算法：构成图，找最短路径
  太依赖辞典，太慢

基于规则方法（基于语义）
大文本中相邻词共同出现的次数决定了词之间的可信度，当高于一定的频率时就能构成一个词。

- N-gram: 第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。
- 隐马尔可夫

基于统计的方法（不需要依赖字
典）

N-gram模型
隐马尔可夫模型（原文）
神经网络
专家系统分词

分词工具一览表

参考知乎上的一篇文章史上最全中文分词工具整理
目前的分词工具都支持：java python c++
常用的有：

HanLP 文档里面包含基本的中文分析应用，还有word2vec，简体繁体转换等
jieba分词有多个语言版本，包含java python php等
LTP 哈工大推出的语言技术平台, C++版本的已经完善， java版本的还在进行中
THULAC 清华大写推出的中文语法分析工具包，目前只有分词和词性分析。包含java c++ python
NLPIR 中科院的工具， java的，里面包含分词，标注识别分析等
BosonNLP 商业支持rest 免费调用很好的
百度阿里腾讯都有，并支持rest调用
国外的： NLTK， stanfordNLP

相关文章

Elasticsearch实现中文、拼音分词、繁简体转换高级搜索
一、Elasticsearch分词分词分为读时分词和写时分词。 1.1 读时分词读时分词发生在用户查询时，ES...
初中英语语法(010)-分词
分词分词分为现在分词和过去分词，需要注意的是，现在分词和过去分词都是由动词变化而来，但现在分词不同于现在时，过去...
【英语】语法俱乐部_6_分词
分词概述分词包括现在分词（Ving）和过去分词（Vpp），是动状词的一个分支，分词在句子中可以视为形容词。分词...
分词
分词分为现在分词和过去分词。现在分词有主动进行的意思，过去分词有被动完成的意思。分词的用法包括：作表语，作定语...
ES中文分词器之精确短语匹配（解决了match_phrase匹配
分词器选择调研了几种分词器，例如IK分词器，ansj分词器，mmseg分词器，发现IK的分词效果最好。举个例子：...
配置Hanlp自然语言处理进阶
中文分词中文分词中有众多分词工具，如结巴、hanlp、盘古分词器、庖丁解牛分词等；其中庖丁解牛分词仅仅支持jav...
elasticsearch之八分词器
个人专题目录 1. 中文分词器 IK分词器 1.1 分词器 analyzer 什么是分词器 analyzer 分词...
【告别巴别塔】英语的真相
英语当中的分词包括现在分词和过去分词，但是现在分词和过去分词不表示时间，现在分词不表示现在的概念，而是表示动作的主...
分词练习1——分词工具包
关于分词工具包的体验：分词练习2——分词体验现有的分词工具包（1）NLPIR NLPIR汉语分词系统，又名IC...
elasticsearch分词器
一、es内置分词器只支持英文分词，不支持中文分词 2、es内置分词器 standard：默认分词，单词会被拆分，...

网友评论

本文标题：分词

本文链接：https://www.haomeiwen.com/subject/xaafuqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|分词|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！