美文网首页Java
Java分词工具:word

Java分词工具:word

作者: 进击的小鹿 | 来源:发表于2018-09-07 20:25 被阅读91次

    今天发现一个好用的分词工具,Word。

    word分词器主页 :https://github.com/ysc/word

    word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。

    引入依赖 1.3版本

     <dependency>
                <groupId>org.apdplat</groupId>
                <artifactId>word</artifactId>
                <version>1.3</version>
            </dependency>
    

    test进行:

    public class WordFilter {
    
        public static  void automaticSelection(String title) {
            //移除停用词进行分词
            List<Word> list = WordSegmenter.seg(title);
    
            System.out.println(JSON.toJSONString(list));
    
            //保留停用词
            List<Word> lists = WordSegmenter.segWithStopWords(title);
            System.out.println(JSON.toJSONString(lists));
    
        }
    
        public static void main(String[] args) {
            WordFilter.automaticSelection("我叫李太白,我是一个诗人,我生活在唐朝");
        }
    }
    

    输出

    20:17:50.506 [main] INFO org.apdplat.word.segmentation.SegmentationFactory - 构造分词实现类:org.apdplat.word.segmentation.impl.MaxNgramScore
    20:17:50.514 [main] INFO org.apdplat.word.util.WordConfTools - 开始加载配置文件
    20:17:50.517 [main] INFO org.apdplat.word.util.WordConfTools - 加载配置文件:word.conf
    20:17:50.518 [main] INFO org.apdplat.word.util.WordConfTools - 未找到配置文件:word.local.conf
    20:17:50.518 [main] INFO org.apdplat.word.util.WordConfTools - 配置文件加载完毕,耗时4 毫秒,配置项数目:33
    20:17:50.518 [main] INFO org.apdplat.word.util.WordConfTools - 配置信息:
    20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 1、auto.detect=true
    20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 2、bigram.double.array.trie.size=5300000
    20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 3、bigram.path=classpath:bigram.txt
    20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 4、dic.class=org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie
    20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 5、dic.dump.path=
    20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 6、dic.path=classpath:dic.txt
    20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 7、dictionary.trie.index.size=24000
    20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 8、double.array.dictionary.trie.size=2600000
    20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 9、intercept.length=16
    20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 10、keep.punctuation=false
    20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 11、keep.whitespace=false
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 12、ngram=bigram
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 13、parallel.seg=true
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 14、part.of.speech.des.path=classpath:part_of_speech_des.txt
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 15、part.of.speech.dic.path=classpath:part_of_speech_dic.txt
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 16、person.name.recognize=true
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 17、punctuation.path=classpath:punctuation.txt
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 18、quantifier.path=classpath:quantifier.txt
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 19、recognition.tool.enabled=true
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 20、redis.host=localhost
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 21、redis.port=6379
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 22、stopwords.path=classpath:stopwords.txt
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 23、surname.path=classpath:surname.txt
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 24、tagging.antonym=false
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 25、tagging.pinyin.acronym=false
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 26、tagging.pinyin.full=false
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 27、tagging.synonym=false
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 28、trigram.double.array.trie.size=9800000
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 29、trigram.path=classpath:trigram.txt
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 30、word.antonym.path=classpath:word_antonym.txt
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 31、word.refine.combine.max.length=3
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 32、word.refine.path=classpath:word_refine.txt
    20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 33、word.synonym.path=classpath:word_synonym.txt
    20:17:50.594 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:person.name.recognize=true
    20:17:50.594 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:keep.whitespace=false
    20:17:50.594 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:keep.punctuation=false
    20:17:50.594 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:parallel.seg=true
    20:17:50.594 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:intercept.length=16
    20:17:50.594 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:ngram=bigram
    20:17:50.595 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:intercept.length=16
    20:17:50.599 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:dic.class=org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie
    20:17:50.599 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - dic.class=org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie
    20:17:50.601 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:double.array.dictionary.trie.size=2600000
    20:17:50.601 [main] INFO org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 初始化词典:org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie
    20:17:50.602 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:dic.path=classpath:dic.txt
    20:17:50.602 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:punctuation.path=classpath:punctuation.txt
    20:17:50.602 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:part.of.speech.dic.path=classpath:part_of_speech_dic.txt
    20:17:50.602 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:word.synonym.path=classpath:word_synonym.txt
    20:17:50.602 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:word.antonym.path=classpath:word_antonym.txt
    20:17:50.604 [main] INFO org.apdplat.word.util.AutoDetector - 开始加载资源
    20:17:50.604 [main] INFO org.apdplat.word.util.AutoDetector - classpath:dic.txt,classpath:punctuation.txt,classpath:part_of_speech_dic.txt,classpath:word_synonym.txt,classpath:word_antonym.txt
    20:17:50.604 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:dic.txt
    20:17:50.605 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/dic.txt
    20:17:50.605 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:dic.txt
    20:17:50.857 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:punctuation.txt
    20:17:50.858 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/punctuation.txt
    20:17:50.858 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:punctuation.txt
    20:17:50.861 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:part_of_speech_dic.txt
    20:17:50.862 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/part_of_speech_dic.txt
    20:17:50.862 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:part_of_speech_dic.txt
    20:17:50.994 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:word_synonym.txt
    20:17:50.995 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/word_synonym.txt
    20:17:50.995 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:word_synonym.txt
    20:17:51.002 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:word_antonym.txt
    20:17:51.002 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/word_antonym.txt
    20:17:51.002 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:word_antonym.txt
    20:17:51.005 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源 1091310 行
    20:17:51.006 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 初始化词典
    20:17:51.008 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:surname.path=classpath:surname.txt
    20:17:51.008 [main] INFO org.apdplat.word.util.AutoDetector - 开始加载资源
    20:17:51.008 [main] INFO org.apdplat.word.util.AutoDetector - classpath:surname.txt
    20:17:51.008 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:surname.txt
    20:17:51.009 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/surname.txt
    20:17:51.009 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:surname.txt
    20:17:51.009 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源 508 行
    20:17:51.009 [main] INFO org.apdplat.word.recognition.PersonName - 初始化百家姓
    20:17:51.010 [main] INFO org.apdplat.word.recognition.PersonName - 百家姓初始化完毕,单姓个数:446,复姓个数:60
    20:17:51.010 [main] INFO org.apdplat.word.util.AutoDetector - 完成加载资源,耗时2 毫秒
    20:17:51.011 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 将 60 个复姓加入词典
    20:17:53.132 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:dic.dump.path=
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词数目:677844,词典最大词长:16
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长  1 的词数为:47
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长  2 的词数为:213334
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长  3 的词数为:289749
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长  4 的词数为:158964
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长  5 的词数为:6139
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长  6 的词数为:3746
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长  7 的词数为:2205
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长  8 的词数为:1321
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长  9 的词数为:797
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 10 的词数为:632
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 11 的词数为:312
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 12 的词数为:282
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 13 的词数为:124
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 14 的词数为:116
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 15 的词数为:51
    20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 16 的词数为:25
    20:18:01.083 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词典平均词长:3.0032012
    20:18:01.295 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词典初始化完毕,耗时:10289 毫秒
    20:18:01.295 [main] INFO org.apdplat.word.util.AutoDetector - 完成加载资源,耗时10691 毫秒
    20:18:01.296 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:punctuation.path=classpath:punctuation.txt
    20:18:01.296 [main] INFO org.apdplat.word.util.AutoDetector - 开始加载资源
    20:18:01.296 [main] INFO org.apdplat.word.util.AutoDetector - classpath:punctuation.txt
    20:18:01.296 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:punctuation.txt
    20:18:01.296 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/punctuation.txt
    20:18:01.296 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:punctuation.txt
    20:18:01.297 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源 48 行
    20:18:01.297 [main] INFO org.apdplat.word.recognition.Punctuation - 初始化标点符号
    20:18:01.297 [main] INFO org.apdplat.word.recognition.Punctuation - 标点符号初始化完毕,标点符号个数:52
    20:18:01.297 [main] INFO org.apdplat.word.util.AutoDetector - 完成加载资源,耗时1 毫秒
    20:18:01.306 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:叫李太白
    20:18:01.306 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:太白
    20:18:01.306 [ForkJoinPool.commonPool-worker-3] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我叫李太白
    20:18:01.309 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:太白
    20:18:01.309 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:recognition.tool.enabled=true
    20:18:01.307 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:李太白
    20:18:01.310 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:李太白
    20:18:01.311 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:李太
    20:18:01.311 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:李太
    20:18:01.311 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:quantifier.path=classpath:quantifier.txt
    20:18:01.311 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.util.AutoDetector - 开始加载资源
    20:18:01.311 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.util.AutoDetector - classpath:quantifier.txt
    20:18:01.312 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.util.AutoDetector - 类路径资源:quantifier.txt
    20:18:01.313 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/quantifier.txt
    20:18:01.313 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:quantifier.txt
    20:18:01.315 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.util.AutoDetector - 加载资源 164 行
    20:18:01.315 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.recognition.Quantifier - 初始化数量词
    20:18:01.315 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.recognition.Quantifier - 数量词初始化完毕,数量词个数:164
    20:18:01.316 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.util.AutoDetector - 完成加载资源,耗时4 毫秒
    20:18:01.316 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:叫李太
    20:18:01.316 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:叫李
    20:18:01.316 [ForkJoinPool.commonPool-worker-3] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我叫李太
    20:18:01.316 [ForkJoinPool.commonPool-worker-3] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我叫李
    20:18:01.316 [ForkJoinPool.commonPool-worker-3] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我叫
    20:18:01.316 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图:
    20:18:01.316 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S->(我)】   
    20:18:01.316 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我->(叫)】   
    20:18:01.316 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【叫->(李)(李太白)(李太)】  
    20:18:01.316 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【李->(太)(太白)】   【李太白->(END)】    【李太->(白)】   
    20:18:01.316 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【太->(白)】   【太白->(END)】 
    20:18:01.316 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【白->(END)】 
    20:18:01.318 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:bigram.double.array.trie.size=5300000
    20:18:01.319 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:bigram.path=classpath:bigram.txt
    20:18:01.319 [main] INFO org.apdplat.word.util.AutoDetector - 开始加载资源
    20:18:01.319 [main] INFO org.apdplat.word.util.AutoDetector - classpath:bigram.txt
    20:18:01.320 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:bigram.txt
    20:18:01.320 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/bigram.txt
    20:18:01.320 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:bigram.txt
    20:18:01.646 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源 1519443 行
    20:18:01.646 [main] INFO org.apdplat.word.corpus.Bigram - 初始化bigram
    20:18:25.383 [main] INFO org.apdplat.word.corpus.Bigram - bigram初始化完毕,bigram数据条数:1519443
    20:18:25.383 [main] INFO org.apdplat.word.util.AutoDetector - 完成加载资源,耗时24064 毫秒
    20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:S:我
    20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:我:叫
    20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:叫:李
    20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:叫:李太白
    20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:叫:李太
    20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:李:太
    20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:李:太白
    20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:李太白:END
    20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:李太:白
    20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:太:白
    20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:太白:END
    20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:白:END
    20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 所有切分结果都没有ngram分值,算法退化为 最少词数算法
    20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图的最佳路径:
    20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S(1.0)<-】 
    20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我(2.0)<-S】    
    20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【叫(3.0)<-我】    
    20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【李(4.0)<-叫】    【李太白(4.0)<-叫】   【李太(4.0)<-叫】    
    20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【太(5.0)<-李】    【太白(5.0)<-李】    
    20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【白(5.0)<-李太】   
    20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【END(5.0)<-李太白】    
    20:18:25.385 [main] DEBUG org.apdplat.word.recognition.PersonName - 人名识别:[我, 叫, 李太白]
    20:18:25.385 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:个诗人
    20:18:25.385 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:个诗
    20:18:25.385 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:诗人
    20:18:25.385 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:是一个诗人
    20:18:25.385 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:诗人
    20:18:25.385 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是一个诗人
    20:18:25.385 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:是一个诗
    20:18:25.385 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:一个诗人
    20:18:25.385 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是一个诗
    20:18:25.385 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:是一个
    20:18:25.385 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:一个诗
    20:18:25.385 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是一个
    20:18:25.385 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:是一
    20:18:25.385 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:一个
    20:18:25.385 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是一
    20:18:25.385 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:一个
    20:18:25.385 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是
    20:18:25.385 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图:
    20:18:25.385 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S->(我)】   
    20:18:25.385 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我->(是)】   
    20:18:25.385 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【是->(一)(一个)】   
    20:18:25.385 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【一->(个)】   【一个->(诗)(诗人)】   
    20:18:25.385 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【个->(诗)(诗人)】   
    20:18:25.385 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【诗->(人)】   【诗人->(END)】 
    20:18:25.385 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【人->(END)】 
    20:18:25.385 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:S:我
    20:18:25.385 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:我:是
    20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:是:一
    20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:是:一个
    20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:是:一个
    20:18:25.386 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 是:一个 获得分值:0.41464642
    20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:一:个
    20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:一个:诗
    20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:一个:诗人
    20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:一个:诗人
    20:18:25.386 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 一个:诗人 获得分值:4.194279E-4
    20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:个:诗
    20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:个:诗人
    20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:诗:人
    20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:诗人:END
    20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:人:END
    20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图的最佳路径:
    20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S(0.0)<-】 
    20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我(-180142.9)<-S】  
    20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【是(-360285.8)<-我】  
    20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【一(-540428.75)<-是】 【一个(-360285.4)<-是】  
    20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【个(-720571.6)<-一】  
    20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【诗(-540428.3)<-一个】 【诗人(-360285.4)<-一个】 
    20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【人(-720571.25)<-诗】 
    20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【END(-540428.3)<-诗人】   
    20:18:25.386 [main] DEBUG org.apdplat.word.recognition.PersonName - 人名识别:[我, 是, 一个, 诗人]
    20:18:25.386 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生活在唐朝
    20:18:25.386 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:唐朝
    20:18:25.386 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:生活在唐朝
    20:18:25.386 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:在唐朝
    20:18:25.386 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:唐朝
    20:18:25.386 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生活在唐
    20:18:25.386 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:在唐
    20:18:25.386 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:活在唐朝
    20:18:25.386 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:生活在唐
    20:18:25.386 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生活在
    20:18:25.386 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:生活在
    20:18:25.386 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:活在唐
    20:18:25.386 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:生活
    20:18:25.386 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生活
    20:18:25.386 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:活在
    20:18:25.386 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生
    20:18:25.386 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:生活
    20:18:25.386 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:活在
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图:
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S->(我)】   
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我->(生)(生活)】   
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【生->(活)(活在)】   【生活->(在)】   
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【活->(在)】   【活在->(唐)(唐朝)】   
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【在->(唐)(唐朝)】   
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【唐->(朝)】   【唐朝->(END)】 
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【朝->(END)】 
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:S:我
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:我:生
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:我:生活
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:我:生活
    20:18:25.387 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 我:生活 获得分值:0.002768224
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:生:活
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:生:活在
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:生活:在
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:生活:在
    20:18:25.387 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 生活:在 获得分值:0.058048822
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:活:在
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:活在:唐
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:活在:唐朝
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:在:唐
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:在:唐朝
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:在:唐朝
    20:18:25.387 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 在:唐朝 获得分值:5.8719906E-4
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:唐:朝
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:唐朝:END
    20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:朝:END
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图的最佳路径:
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S(0.0)<-】 
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我(-180142.9)<-S】  
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【生(-360285.8)<-我】  【生活(-180142.9)<-我】  
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【活(-540428.75)<-生】 【活在(-540428.75)<-生】 
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【在(-180142.84)<-生活】    
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【唐(-360285.75)<-在】 【唐朝(-180142.84)<-在】 
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【朝(-540428.6)<-唐】  
    20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【END(-360285.75)<-唐朝】  
    20:18:25.387 [main] DEBUG org.apdplat.word.recognition.PersonName - 人名识别:[我, 生活, 在, 唐朝]
    20:18:25.388 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:stopwords.path=classpath:stopwords.txt
    20:18:25.388 [main] INFO org.apdplat.word.util.AutoDetector - 开始加载资源
    20:18:25.388 [main] INFO org.apdplat.word.util.AutoDetector - classpath:stopwords.txt
    20:18:25.388 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:stopwords.txt
    20:18:25.388 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/stopwords.txt
    20:18:25.388 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:stopwords.txt
    20:18:25.389 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源 1482 行
    20:18:25.389 [main] INFO org.apdplat.word.recognition.StopWord - 初始化停用词
    20:18:25.390 [main] INFO org.apdplat.word.recognition.StopWord - 停用词初始化完毕,停用词个数:1482
    20:18:25.390 [main] INFO org.apdplat.word.util.AutoDetector - 完成加载资源,耗时2 毫秒
    20:18:25.390 [main] DEBUG org.apdplat.word.recognition.StopWord - 去除停用词:我
    20:18:25.390 [main] DEBUG org.apdplat.word.recognition.StopWord - 去除停用词:叫
    20:18:25.390 [main] DEBUG org.apdplat.word.recognition.StopWord - 去除停用词:我
    20:18:25.390 [main] DEBUG org.apdplat.word.recognition.StopWord - 去除停用词:是
    20:18:25.390 [main] DEBUG org.apdplat.word.recognition.StopWord - 去除停用词:一个
    20:18:25.390 [main] DEBUG org.apdplat.word.recognition.StopWord - 去除停用词:我
    20:18:25.390 [main] DEBUG org.apdplat.word.recognition.StopWord - 去除停用词:生活
    20:18:25.390 [main] DEBUG org.apdplat.word.recognition.StopWord - 去除停用词:在
    [{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"李太白"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"诗人"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"唐朝"}]
    20:18:25.547 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:李太白
    20:18:25.547 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我叫李太白
    20:18:25.547 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:李太白
    20:18:25.547 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:太白
    20:18:25.547 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我叫李太
    20:18:25.547 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:太白
    20:18:25.547 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:叫李太白
    20:18:25.547 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我叫李
    20:18:25.547 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:李太
    20:18:25.547 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我叫
    20:18:25.547 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:李太
    20:18:25.547 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:叫李太
    20:18:25.547 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:叫李
    20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图:
    20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S->(我)】   
    20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我->(叫)】   
    20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【叫->(李)(李太白)(李太)】  
    20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【李->(太)(太白)】   【李太白->(END)】    【李太->(白)】   
    20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【太->(白)】   【太白->(END)】 
    20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【白->(END)】 
    20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:S:我
    20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:我:叫
    20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:叫:李
    20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:叫:李太白
    20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:叫:李太
    20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:李:太
    20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:李:太白
    20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:李太白:END
    20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:李太:白
    20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:太:白
    20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:太白:END
    20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:白:END
    20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 所有切分结果都没有ngram分值,算法退化为 最少词数算法
    20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图的最佳路径:
    20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S(1.0)<-】 
    20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我(2.0)<-S】    
    20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【叫(3.0)<-我】    
    20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【李(4.0)<-叫】    【李太白(4.0)<-叫】   【李太(4.0)<-叫】    
    20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【太(5.0)<-李】    【太白(5.0)<-李】    
    20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【白(5.0)<-李太】   
    20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【END(5.0)<-李太白】    
    20:18:25.548 [main] DEBUG org.apdplat.word.recognition.PersonName - 人名识别:[我, 叫, 李太白]
    20:18:25.548 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是一个诗人
    20:18:25.548 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:是一个诗人
    20:18:25.548 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:诗人
    20:18:25.548 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是一个诗
    20:18:25.548 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:是一个诗
    20:18:25.548 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:诗人
    20:18:25.548 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是一个
    20:18:25.548 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:是一个
    20:18:25.548 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:一个诗人
    20:18:25.548 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:个诗人
    20:18:25.548 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是一
    20:18:25.549 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:是一
    20:18:25.549 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是
    20:18:25.549 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:一个诗
    20:18:25.549 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:一个
    20:18:25.549 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:个诗
    20:18:25.549 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:一个
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图:
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S->(我)】   
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我->(是)】   
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【是->(一)(一个)】   
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【一->(个)】   【一个->(诗)(诗人)】   
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【个->(诗)(诗人)】   
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【诗->(人)】   【诗人->(END)】 
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【人->(END)】 
    20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:S:我
    20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:我:是
    20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:是:一
    20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:是:一个
    20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:是:一个
    20:18:25.549 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 是:一个 获得分值:0.41464642
    20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:一:个
    20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:一个:诗
    20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:一个:诗人
    20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:一个:诗人
    20:18:25.549 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 一个:诗人 获得分值:4.194279E-4
    20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:个:诗
    20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:个:诗人
    20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:诗:人
    20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:诗人:END
    20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:人:END
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图的最佳路径:
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S(0.0)<-】 
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我(-180142.9)<-S】  
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【是(-360285.8)<-我】  
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【一(-540428.75)<-是】 【一个(-360285.4)<-是】  
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【个(-720571.6)<-一】  
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【诗(-540428.3)<-一个】 【诗人(-360285.4)<-一个】 
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【人(-720571.25)<-诗】 
    20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【END(-540428.3)<-诗人】   
    20:18:25.550 [main] DEBUG org.apdplat.word.recognition.PersonName - 人名识别:[我, 是, 一个, 诗人]
    20:18:25.550 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:生活在唐朝
    20:18:25.550 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生活在唐朝
    20:18:25.550 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:生活在唐
    20:18:25.550 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:唐朝
    20:18:25.550 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:生活在
    20:18:25.550 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生活在唐
    20:18:25.550 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:唐朝
    20:18:25.550 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:生活
    20:18:25.550 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生活在
    20:18:25.550 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:生活
    20:18:25.550 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:活在唐朝
    20:18:25.550 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生活
    20:18:25.550 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生
    20:18:25.550 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:在唐朝
    20:18:25.550 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:活在唐
    20:18:25.550 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:在唐
    20:18:25.550 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:活在
    20:18:25.550 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:活在
    20:18:25.550 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图:
    20:18:25.550 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S->(我)】   
    20:18:25.550 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我->(生)(生活)】   
    20:18:25.550 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【生->(活)(活在)】   【生活->(在)】   
    20:18:25.550 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【活->(在)】   【活在->(唐)(唐朝)】   
    20:18:25.550 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【在->(唐)(唐朝)】   
    20:18:25.550 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【唐->(朝)】   【唐朝->(END)】 
    20:18:25.550 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【朝->(END)】 
    20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:S:我
    20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:我:生
    20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:我:生活
    20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:我:生活
    20:18:25.550 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 我:生活 获得分值:0.002768224
    20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:生:活
    20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:生:活在
    20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:生活:在
    20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:生活:在
    20:18:25.550 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 生活:在 获得分值:0.058048822
    20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:活:在
    20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:活在:唐
    20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:活在:唐朝
    20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:在:唐
    20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:在:唐朝
    20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:在:唐朝
    20:18:25.550 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 在:唐朝 获得分值:5.8719906E-4
    20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:唐:朝
    20:18:25.551 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:唐朝:END
    20:18:25.551 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:朝:END
    20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图的最佳路径:
    20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S(0.0)<-】 
    20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我(-180142.9)<-S】  
    20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【生(-360285.8)<-我】  【生活(-180142.9)<-我】  
    20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【活(-540428.75)<-生】 【活在(-540428.75)<-生】 
    20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【在(-180142.84)<-生活】    
    20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【唐(-360285.75)<-在】 【唐朝(-180142.84)<-在】 
    20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【朝(-540428.6)<-唐】  
    20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【END(-360285.75)<-唐朝】  
    20:18:25.551 [main] DEBUG org.apdplat.word.recognition.PersonName - 人名识别:[我, 生活, 在, 唐朝]
    [{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"我"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"叫"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"李太白"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"我"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"是"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"一个"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"诗人"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"我"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"生活"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"在"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"唐朝"}]
    
    
    

    相关文章

      网友评论

        本文标题:Java分词工具:word

        本文链接:https://www.haomeiwen.com/subject/hulhgftx.html