hanlp源码解读之字符正规化CharTable

hanlp源码解读之字符正规化CharTable

作者: lanlantian123 | 来源:发表于2018-10-29 11:36 被阅读0次

hanlp源码解读之字符正规化CharTable
使用HanLP增强Elasticsearch分词功能
文章目录
linux 命令行使用hanlp
AFNetworking 3.0 源码解读（五）之 AFURLS
AFURLSessionManager
iOS AFNetWorking解读
AFN 3.0学习总结（三）
AFN 3.0学习总结（九）
AFN 3.0学习总结（四）

概述：字符正规化是指在分词之前把繁体转成简体、大写转成小写等，在自然语言处理中这是必不可以的一个步骤！在hanlp中的实现方法是基于词典的，也就是正规则字符对照表。就是“data/dictionary/other/CharTable.txt” 这个词典，打开后是下面这个样子的！

在java程序中如何实现呢，相信大部分人会想用到用HashMap缓存起来不就可以了吗！当然，这个方法是可行的，但是HashMap在数据量比较大时，时间复杂度是接近O(n)的。这也是为什么加载词典用trie树，而不是直接用HashMap的原因了,当然内存也是一个方面，本篇文章不会讨论！下面我们来看下hanlp代码里的具体实现。

在hanlp中，是采用一维数据实现的，下面一步步来看源码的实现！源码位于com.hankcs.hanlp.HanLP包下的CharTable类中，这个类主是要加把 CharTable.txt加载到一维数组中。为了方便阅读，下面直接在代码中加入注释!

在分词之前会首化调用正规化接口（在启用正规化的情况下）

下面来看下CharTable.normalization(text);这个函数的实现：这个函数极其简单，就是对text中的每个字符查询一维数据COVERT,看到这里应该就能明白，正规化最重要的就是加载txt文件到CONVERT数组中

下面看具本的代码，敝人在代码中都加入了注释，此处不再另行讲解

文章来源于亚当-adam的博客

相关文章

hanlp源码解读之字符正规化CharTable
概述：字符正规化是指在分词之前把繁体转成简体、大写转成小写等，在自然语言处理中这是必不可以的一个步骤！在hanlp...
使用HanLP增强Elasticsearch分词功能
hanlp-ext 插件源码地址：http://git.oschina.net/hualongdata/hanlp...
文章目录
Go 源码解读篇《Go源码解读篇》之常见数据结构(list) 《Go源码解读篇》之 Error 工作中知识总结 ...
linux 命令行使用hanlp
本文主要工作是在linux服务器上使用hanlp，测试源码主要是hanlp源码中的 1. 文件内容结构介绍本人...
AFNetworking 3.0 源码解读（五）之 AFURLS
本篇是AFNetworking 3.0 源码解读的第五篇了。 AFNetworking 3.0 源码解读（一）之 ...
AFURLSessionManager
本篇是AFNetworking 3.0源码解读的第五篇了。 AFNetworking 3.0 源码解读（一）之 A...
iOS AFNetWorking解读
AFNetworking 3.0 源码解读（一）之 AFNetworkReachabilityManagerAFN...
AFN 3.0学习总结（三）
参考：AFNetworking 3.0 源码解读（三）之 AFURLRequestSerialization 说明...
AFN 3.0学习总结（九）
参考：AFNetworking 3.0 源码解读（九）之 AFNetworkActivityIndicatorMa...
AFN 3.0学习总结（四）
参考：AFNetworking 3.0 源码解读（四）之 AFURLResponseSerialization 说...

网友评论

本文标题：hanlp源码解读之字符正规化CharTable

本文链接：https://www.haomeiwen.com/subject/tdcbtqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|hanlp源码解读之字符正规化CharTable|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！