美文网首页
HanLP里使用DAT存取字典的方法

HanLP里使用DAT存取字典的方法

作者: lanlantian123 | 来源:发表于2019-02-27 16:32 被阅读0次

    CoreBiGramTableDictionary.java和CoreDictionary.java结构思路

    词典里文件的格式:wordA@wordB     frequency

    CoreBiGramTableDictionary.java文件用一个TreeMap<(int)wordA, TreeMap<(int)wordB, (int)frequency>>来读取词典。用一个名为pair的int型数组来存储TreeMap<(int)wordB, (int)frequency>。因为一个wordA可能对应有多个wordB,所以用一个名为start的int型数组来记录wordA后面有多少个wordB(start[i] ~~~ start[i+1])。

    wordA和wordB的int数值从DAT的查询中来。

    词典里文件的格式:word     nature1     frequency1     nature2     frequency2 ......

    CoreDictionary.java里用一个Attribute的内部类来保存词典里的每一列中word后的那些概率。

    Attribute属性:Nature nature[];

                            int         frequency[];

                            int          totalFrequency;

    接着用一个TreeMap<String, Attribute>来存储一列。

    怎么build这个map到DAT里?

    build(map<String, Attribute>) --> build(Set<String, Attribute>) --> List<String> keyList, List<Attribute> valueList --> build(keyList, valueList) --> DAT里的Attribute[] v := valueList, 最终到了原有的build()。

    OK, finished.

    文章来源于网络

    相关文章

      网友评论

          本文标题:HanLP里使用DAT存取字典的方法

          本文链接:https://www.haomeiwen.com/subject/nkmfuqtx.html