今天发现一个好用的分词工具,Word。
word分词器主页 :https://github.com/ysc/word
word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。
引入依赖 1.3版本
<dependency>
<groupId>org.apdplat</groupId>
<artifactId>word</artifactId>
<version>1.3</version>
</dependency>
test进行:
public class WordFilter {
public static void automaticSelection(String title) {
//移除停用词进行分词
List<Word> list = WordSegmenter.seg(title);
System.out.println(JSON.toJSONString(list));
//保留停用词
List<Word> lists = WordSegmenter.segWithStopWords(title);
System.out.println(JSON.toJSONString(lists));
}
public static void main(String[] args) {
WordFilter.automaticSelection("我叫李太白,我是一个诗人,我生活在唐朝");
}
}
输出
20:17:50.506 [main] INFO org.apdplat.word.segmentation.SegmentationFactory - 构造分词实现类:org.apdplat.word.segmentation.impl.MaxNgramScore
20:17:50.514 [main] INFO org.apdplat.word.util.WordConfTools - 开始加载配置文件
20:17:50.517 [main] INFO org.apdplat.word.util.WordConfTools - 加载配置文件:word.conf
20:17:50.518 [main] INFO org.apdplat.word.util.WordConfTools - 未找到配置文件:word.local.conf
20:17:50.518 [main] INFO org.apdplat.word.util.WordConfTools - 配置文件加载完毕,耗时4 毫秒,配置项数目:33
20:17:50.518 [main] INFO org.apdplat.word.util.WordConfTools - 配置信息:
20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 1、auto.detect=true
20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 2、bigram.double.array.trie.size=5300000
20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 3、bigram.path=classpath:bigram.txt
20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 4、dic.class=org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie
20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 5、dic.dump.path=
20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 6、dic.path=classpath:dic.txt
20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 7、dictionary.trie.index.size=24000
20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 8、double.array.dictionary.trie.size=2600000
20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 9、intercept.length=16
20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 10、keep.punctuation=false
20:17:50.593 [main] INFO org.apdplat.word.util.WordConfTools - 11、keep.whitespace=false
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 12、ngram=bigram
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 13、parallel.seg=true
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 14、part.of.speech.des.path=classpath:part_of_speech_des.txt
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 15、part.of.speech.dic.path=classpath:part_of_speech_dic.txt
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 16、person.name.recognize=true
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 17、punctuation.path=classpath:punctuation.txt
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 18、quantifier.path=classpath:quantifier.txt
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 19、recognition.tool.enabled=true
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 20、redis.host=localhost
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 21、redis.port=6379
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 22、stopwords.path=classpath:stopwords.txt
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 23、surname.path=classpath:surname.txt
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 24、tagging.antonym=false
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 25、tagging.pinyin.acronym=false
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 26、tagging.pinyin.full=false
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 27、tagging.synonym=false
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 28、trigram.double.array.trie.size=9800000
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 29、trigram.path=classpath:trigram.txt
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 30、word.antonym.path=classpath:word_antonym.txt
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 31、word.refine.combine.max.length=3
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 32、word.refine.path=classpath:word_refine.txt
20:17:50.594 [main] INFO org.apdplat.word.util.WordConfTools - 33、word.synonym.path=classpath:word_synonym.txt
20:17:50.594 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:person.name.recognize=true
20:17:50.594 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:keep.whitespace=false
20:17:50.594 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:keep.punctuation=false
20:17:50.594 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:parallel.seg=true
20:17:50.594 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:intercept.length=16
20:17:50.594 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:ngram=bigram
20:17:50.595 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:intercept.length=16
20:17:50.599 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:dic.class=org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie
20:17:50.599 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - dic.class=org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie
20:17:50.601 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:double.array.dictionary.trie.size=2600000
20:17:50.601 [main] INFO org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 初始化词典:org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie
20:17:50.602 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:dic.path=classpath:dic.txt
20:17:50.602 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:punctuation.path=classpath:punctuation.txt
20:17:50.602 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:part.of.speech.dic.path=classpath:part_of_speech_dic.txt
20:17:50.602 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:word.synonym.path=classpath:word_synonym.txt
20:17:50.602 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:word.antonym.path=classpath:word_antonym.txt
20:17:50.604 [main] INFO org.apdplat.word.util.AutoDetector - 开始加载资源
20:17:50.604 [main] INFO org.apdplat.word.util.AutoDetector - classpath:dic.txt,classpath:punctuation.txt,classpath:part_of_speech_dic.txt,classpath:word_synonym.txt,classpath:word_antonym.txt
20:17:50.604 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:dic.txt
20:17:50.605 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/dic.txt
20:17:50.605 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:dic.txt
20:17:50.857 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:punctuation.txt
20:17:50.858 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/punctuation.txt
20:17:50.858 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:punctuation.txt
20:17:50.861 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:part_of_speech_dic.txt
20:17:50.862 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/part_of_speech_dic.txt
20:17:50.862 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:part_of_speech_dic.txt
20:17:50.994 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:word_synonym.txt
20:17:50.995 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/word_synonym.txt
20:17:50.995 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:word_synonym.txt
20:17:51.002 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:word_antonym.txt
20:17:51.002 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/word_antonym.txt
20:17:51.002 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:word_antonym.txt
20:17:51.005 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源 1091310 行
20:17:51.006 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 初始化词典
20:17:51.008 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:surname.path=classpath:surname.txt
20:17:51.008 [main] INFO org.apdplat.word.util.AutoDetector - 开始加载资源
20:17:51.008 [main] INFO org.apdplat.word.util.AutoDetector - classpath:surname.txt
20:17:51.008 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:surname.txt
20:17:51.009 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/surname.txt
20:17:51.009 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:surname.txt
20:17:51.009 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源 508 行
20:17:51.009 [main] INFO org.apdplat.word.recognition.PersonName - 初始化百家姓
20:17:51.010 [main] INFO org.apdplat.word.recognition.PersonName - 百家姓初始化完毕,单姓个数:446,复姓个数:60
20:17:51.010 [main] INFO org.apdplat.word.util.AutoDetector - 完成加载资源,耗时2 毫秒
20:17:51.011 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 将 60 个复姓加入词典
20:17:53.132 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:dic.dump.path=
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词数目:677844,词典最大词长:16
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 1 的词数为:47
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 2 的词数为:213334
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 3 的词数为:289749
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 4 的词数为:158964
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 5 的词数为:6139
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 6 的词数为:3746
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 7 的词数为:2205
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 8 的词数为:1321
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 9 的词数为:797
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 10 的词数为:632
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 11 的词数为:312
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 12 的词数为:282
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 13 的词数为:124
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 14 的词数为:116
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 15 的词数为:51
20:18:01.081 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词长 16 的词数为:25
20:18:01.083 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词典平均词长:3.0032012
20:18:01.295 [main] INFO org.apdplat.word.dictionary.DictionaryFactory - 词典初始化完毕,耗时:10289 毫秒
20:18:01.295 [main] INFO org.apdplat.word.util.AutoDetector - 完成加载资源,耗时10691 毫秒
20:18:01.296 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:punctuation.path=classpath:punctuation.txt
20:18:01.296 [main] INFO org.apdplat.word.util.AutoDetector - 开始加载资源
20:18:01.296 [main] INFO org.apdplat.word.util.AutoDetector - classpath:punctuation.txt
20:18:01.296 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:punctuation.txt
20:18:01.296 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/punctuation.txt
20:18:01.296 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:punctuation.txt
20:18:01.297 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源 48 行
20:18:01.297 [main] INFO org.apdplat.word.recognition.Punctuation - 初始化标点符号
20:18:01.297 [main] INFO org.apdplat.word.recognition.Punctuation - 标点符号初始化完毕,标点符号个数:52
20:18:01.297 [main] INFO org.apdplat.word.util.AutoDetector - 完成加载资源,耗时1 毫秒
20:18:01.306 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:叫李太白
20:18:01.306 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:太白
20:18:01.306 [ForkJoinPool.commonPool-worker-3] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我叫李太白
20:18:01.309 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:太白
20:18:01.309 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:recognition.tool.enabled=true
20:18:01.307 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:李太白
20:18:01.310 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:李太白
20:18:01.311 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:李太
20:18:01.311 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:李太
20:18:01.311 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:quantifier.path=classpath:quantifier.txt
20:18:01.311 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.util.AutoDetector - 开始加载资源
20:18:01.311 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.util.AutoDetector - classpath:quantifier.txt
20:18:01.312 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.util.AutoDetector - 类路径资源:quantifier.txt
20:18:01.313 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/quantifier.txt
20:18:01.313 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:quantifier.txt
20:18:01.315 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.util.AutoDetector - 加载资源 164 行
20:18:01.315 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.recognition.Quantifier - 初始化数量词
20:18:01.315 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.recognition.Quantifier - 数量词初始化完毕,数量词个数:164
20:18:01.316 [ForkJoinPool.commonPool-worker-1] INFO org.apdplat.word.util.AutoDetector - 完成加载资源,耗时4 毫秒
20:18:01.316 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:叫李太
20:18:01.316 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:叫李
20:18:01.316 [ForkJoinPool.commonPool-worker-3] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我叫李太
20:18:01.316 [ForkJoinPool.commonPool-worker-3] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我叫李
20:18:01.316 [ForkJoinPool.commonPool-worker-3] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我叫
20:18:01.316 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图:
20:18:01.316 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S->(我)】
20:18:01.316 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我->(叫)】
20:18:01.316 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【叫->(李)(李太白)(李太)】
20:18:01.316 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【李->(太)(太白)】 【李太白->(END)】 【李太->(白)】
20:18:01.316 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【太->(白)】 【太白->(END)】
20:18:01.316 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【白->(END)】
20:18:01.318 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:bigram.double.array.trie.size=5300000
20:18:01.319 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:bigram.path=classpath:bigram.txt
20:18:01.319 [main] INFO org.apdplat.word.util.AutoDetector - 开始加载资源
20:18:01.319 [main] INFO org.apdplat.word.util.AutoDetector - classpath:bigram.txt
20:18:01.320 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:bigram.txt
20:18:01.320 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/bigram.txt
20:18:01.320 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:bigram.txt
20:18:01.646 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源 1519443 行
20:18:01.646 [main] INFO org.apdplat.word.corpus.Bigram - 初始化bigram
20:18:25.383 [main] INFO org.apdplat.word.corpus.Bigram - bigram初始化完毕,bigram数据条数:1519443
20:18:25.383 [main] INFO org.apdplat.word.util.AutoDetector - 完成加载资源,耗时24064 毫秒
20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:S:我
20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:我:叫
20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:叫:李
20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:叫:李太白
20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:叫:李太
20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:李:太
20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:李:太白
20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:李太白:END
20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:李太:白
20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:太:白
20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:太白:END
20:18:25.384 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:白:END
20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 所有切分结果都没有ngram分值,算法退化为 最少词数算法
20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图的最佳路径:
20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S(1.0)<-】
20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我(2.0)<-S】
20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【叫(3.0)<-我】
20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【李(4.0)<-叫】 【李太白(4.0)<-叫】 【李太(4.0)<-叫】
20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【太(5.0)<-李】 【太白(5.0)<-李】
20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【白(5.0)<-李太】
20:18:25.384 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【END(5.0)<-李太白】
20:18:25.385 [main] DEBUG org.apdplat.word.recognition.PersonName - 人名识别:[我, 叫, 李太白]
20:18:25.385 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:个诗人
20:18:25.385 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:个诗
20:18:25.385 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:诗人
20:18:25.385 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:是一个诗人
20:18:25.385 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:诗人
20:18:25.385 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是一个诗人
20:18:25.385 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:是一个诗
20:18:25.385 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:一个诗人
20:18:25.385 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是一个诗
20:18:25.385 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:是一个
20:18:25.385 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:一个诗
20:18:25.385 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是一个
20:18:25.385 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:是一
20:18:25.385 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:一个
20:18:25.385 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是一
20:18:25.385 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:一个
20:18:25.385 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是
20:18:25.385 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图:
20:18:25.385 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S->(我)】
20:18:25.385 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我->(是)】
20:18:25.385 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【是->(一)(一个)】
20:18:25.385 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【一->(个)】 【一个->(诗)(诗人)】
20:18:25.385 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【个->(诗)(诗人)】
20:18:25.385 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【诗->(人)】 【诗人->(END)】
20:18:25.385 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【人->(END)】
20:18:25.385 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:S:我
20:18:25.385 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:我:是
20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:是:一
20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:是:一个
20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:是:一个
20:18:25.386 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 是:一个 获得分值:0.41464642
20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:一:个
20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:一个:诗
20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:一个:诗人
20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:一个:诗人
20:18:25.386 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 一个:诗人 获得分值:4.194279E-4
20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:个:诗
20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:个:诗人
20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:诗:人
20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:诗人:END
20:18:25.386 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:人:END
20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图的最佳路径:
20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S(0.0)<-】
20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我(-180142.9)<-S】
20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【是(-360285.8)<-我】
20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【一(-540428.75)<-是】 【一个(-360285.4)<-是】
20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【个(-720571.6)<-一】
20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【诗(-540428.3)<-一个】 【诗人(-360285.4)<-一个】
20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【人(-720571.25)<-诗】
20:18:25.386 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【END(-540428.3)<-诗人】
20:18:25.386 [main] DEBUG org.apdplat.word.recognition.PersonName - 人名识别:[我, 是, 一个, 诗人]
20:18:25.386 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生活在唐朝
20:18:25.386 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:唐朝
20:18:25.386 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:生活在唐朝
20:18:25.386 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:在唐朝
20:18:25.386 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:唐朝
20:18:25.386 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生活在唐
20:18:25.386 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:在唐
20:18:25.386 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:活在唐朝
20:18:25.386 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:生活在唐
20:18:25.386 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生活在
20:18:25.386 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:生活在
20:18:25.386 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:活在唐
20:18:25.386 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:生活
20:18:25.386 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生活
20:18:25.386 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:活在
20:18:25.386 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生
20:18:25.386 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:生活
20:18:25.386 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:活在
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图:
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S->(我)】
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我->(生)(生活)】
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【生->(活)(活在)】 【生活->(在)】
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【活->(在)】 【活在->(唐)(唐朝)】
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【在->(唐)(唐朝)】
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【唐->(朝)】 【唐朝->(END)】
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【朝->(END)】
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:S:我
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:我:生
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:我:生活
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:我:生活
20:18:25.387 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 我:生活 获得分值:0.002768224
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:生:活
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:生:活在
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:生活:在
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:生活:在
20:18:25.387 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 生活:在 获得分值:0.058048822
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:活:在
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:活在:唐
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:活在:唐朝
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:在:唐
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:在:唐朝
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:在:唐朝
20:18:25.387 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 在:唐朝 获得分值:5.8719906E-4
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:唐:朝
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:唐朝:END
20:18:25.387 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:朝:END
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图的最佳路径:
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S(0.0)<-】
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我(-180142.9)<-S】
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【生(-360285.8)<-我】 【生活(-180142.9)<-我】
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【活(-540428.75)<-生】 【活在(-540428.75)<-生】
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【在(-180142.84)<-生活】
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【唐(-360285.75)<-在】 【唐朝(-180142.84)<-在】
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【朝(-540428.6)<-唐】
20:18:25.387 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【END(-360285.75)<-唐朝】
20:18:25.387 [main] DEBUG org.apdplat.word.recognition.PersonName - 人名识别:[我, 生活, 在, 唐朝]
20:18:25.388 [main] DEBUG org.apdplat.word.util.WordConfTools - 获取配置项:stopwords.path=classpath:stopwords.txt
20:18:25.388 [main] INFO org.apdplat.word.util.AutoDetector - 开始加载资源
20:18:25.388 [main] INFO org.apdplat.word.util.AutoDetector - classpath:stopwords.txt
20:18:25.388 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源:stopwords.txt
20:18:25.388 [main] INFO org.apdplat.word.util.AutoDetector - 类路径资源URL:jar:file:/Users/cuiyt/Documents/work/repository/org/apdplat/word/1.3/word-1.3.jar!/stopwords.txt
20:18:25.388 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源:classpath:stopwords.txt
20:18:25.389 [main] INFO org.apdplat.word.util.AutoDetector - 加载资源 1482 行
20:18:25.389 [main] INFO org.apdplat.word.recognition.StopWord - 初始化停用词
20:18:25.390 [main] INFO org.apdplat.word.recognition.StopWord - 停用词初始化完毕,停用词个数:1482
20:18:25.390 [main] INFO org.apdplat.word.util.AutoDetector - 完成加载资源,耗时2 毫秒
20:18:25.390 [main] DEBUG org.apdplat.word.recognition.StopWord - 去除停用词:我
20:18:25.390 [main] DEBUG org.apdplat.word.recognition.StopWord - 去除停用词:叫
20:18:25.390 [main] DEBUG org.apdplat.word.recognition.StopWord - 去除停用词:我
20:18:25.390 [main] DEBUG org.apdplat.word.recognition.StopWord - 去除停用词:是
20:18:25.390 [main] DEBUG org.apdplat.word.recognition.StopWord - 去除停用词:一个
20:18:25.390 [main] DEBUG org.apdplat.word.recognition.StopWord - 去除停用词:我
20:18:25.390 [main] DEBUG org.apdplat.word.recognition.StopWord - 去除停用词:生活
20:18:25.390 [main] DEBUG org.apdplat.word.recognition.StopWord - 去除停用词:在
[{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"李太白"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"诗人"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"唐朝"}]
20:18:25.547 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:李太白
20:18:25.547 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我叫李太白
20:18:25.547 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:李太白
20:18:25.547 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:太白
20:18:25.547 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我叫李太
20:18:25.547 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:太白
20:18:25.547 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:叫李太白
20:18:25.547 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我叫李
20:18:25.547 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:李太
20:18:25.547 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我叫
20:18:25.547 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:李太
20:18:25.547 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:叫李太
20:18:25.547 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:叫李
20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图:
20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S->(我)】
20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我->(叫)】
20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【叫->(李)(李太白)(李太)】
20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【李->(太)(太白)】 【李太白->(END)】 【李太->(白)】
20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【太->(白)】 【太白->(END)】
20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【白->(END)】
20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:S:我
20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:我:叫
20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:叫:李
20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:叫:李太白
20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:叫:李太
20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:李:太
20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:李:太白
20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:李太白:END
20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:李太:白
20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:太:白
20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:太白:END
20:18:25.548 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:白:END
20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 所有切分结果都没有ngram分值,算法退化为 最少词数算法
20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图的最佳路径:
20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S(1.0)<-】
20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我(2.0)<-S】
20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【叫(3.0)<-我】
20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【李(4.0)<-叫】 【李太白(4.0)<-叫】 【李太(4.0)<-叫】
20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【太(5.0)<-李】 【太白(5.0)<-李】
20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【白(5.0)<-李太】
20:18:25.548 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【END(5.0)<-李太白】
20:18:25.548 [main] DEBUG org.apdplat.word.recognition.PersonName - 人名识别:[我, 叫, 李太白]
20:18:25.548 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是一个诗人
20:18:25.548 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:是一个诗人
20:18:25.548 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:诗人
20:18:25.548 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是一个诗
20:18:25.548 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:是一个诗
20:18:25.548 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:诗人
20:18:25.548 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是一个
20:18:25.548 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:是一个
20:18:25.548 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:一个诗人
20:18:25.548 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:个诗人
20:18:25.548 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是一
20:18:25.549 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:是一
20:18:25.549 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我是
20:18:25.549 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:一个诗
20:18:25.549 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:一个
20:18:25.549 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:个诗
20:18:25.549 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:一个
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图:
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S->(我)】
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我->(是)】
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【是->(一)(一个)】
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【一->(个)】 【一个->(诗)(诗人)】
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【个->(诗)(诗人)】
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【诗->(人)】 【诗人->(END)】
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【人->(END)】
20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:S:我
20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:我:是
20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:是:一
20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:是:一个
20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:是:一个
20:18:25.549 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 是:一个 获得分值:0.41464642
20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:一:个
20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:一个:诗
20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:一个:诗人
20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:一个:诗人
20:18:25.549 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 一个:诗人 获得分值:4.194279E-4
20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:个:诗
20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:个:诗人
20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:诗:人
20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:诗人:END
20:18:25.549 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:人:END
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图的最佳路径:
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S(0.0)<-】
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我(-180142.9)<-S】
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【是(-360285.8)<-我】
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【一(-540428.75)<-是】 【一个(-360285.4)<-是】
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【个(-720571.6)<-一】
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【诗(-540428.3)<-一个】 【诗人(-360285.4)<-一个】
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【人(-720571.25)<-诗】
20:18:25.549 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【END(-540428.3)<-诗人】
20:18:25.550 [main] DEBUG org.apdplat.word.recognition.PersonName - 人名识别:[我, 是, 一个, 诗人]
20:18:25.550 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:生活在唐朝
20:18:25.550 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生活在唐朝
20:18:25.550 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:生活在唐
20:18:25.550 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:唐朝
20:18:25.550 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:生活在
20:18:25.550 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生活在唐
20:18:25.550 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:唐朝
20:18:25.550 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:生活
20:18:25.550 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生活在
20:18:25.550 [ForkJoinPool.commonPool-worker-0] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:生活
20:18:25.550 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:活在唐朝
20:18:25.550 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生活
20:18:25.550 [ForkJoinPool.commonPool-worker-1] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:我生
20:18:25.550 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:在唐朝
20:18:25.550 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:活在唐
20:18:25.550 [main] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:在唐
20:18:25.550 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 开始查词典:活在
20:18:25.550 [ForkJoinPool.commonPool-worker-2] DEBUG org.apdplat.word.dictionary.impl.DoubleArrayDictionaryTrie - 在词典中查到词:活在
20:18:25.550 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图:
20:18:25.550 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S->(我)】
20:18:25.550 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我->(生)(生活)】
20:18:25.550 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【生->(活)(活在)】 【生活->(在)】
20:18:25.550 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【活->(在)】 【活在->(唐)(唐朝)】
20:18:25.550 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【在->(唐)(唐朝)】
20:18:25.550 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【唐->(朝)】 【唐朝->(END)】
20:18:25.550 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【朝->(END)】
20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:S:我
20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:我:生
20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:我:生活
20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:我:生活
20:18:25.550 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 我:生活 获得分值:0.002768224
20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:生:活
20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:生:活在
20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:生活:在
20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:生活:在
20:18:25.550 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 生活:在 获得分值:0.058048822
20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:活:在
20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:活在:唐
20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:活在:唐朝
20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:在:唐
20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:在:唐朝
20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 在词典中查到词:在:唐朝
20:18:25.550 [main] DEBUG org.apdplat.word.corpus.Bigram - 二元模型 在:唐朝 获得分值:5.8719906E-4
20:18:25.550 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:唐:朝
20:18:25.551 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:唐朝:END
20:18:25.551 [main] DEBUG org.apdplat.word.util.DoubleArrayGenericTrie - 开始查询数据:朝:END
20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 有向无环图的最佳路径:
20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【S(0.0)<-】
20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【我(-180142.9)<-S】
20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【生(-360285.8)<-我】 【生活(-180142.9)<-我】
20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【活(-540428.75)<-生】 【活在(-540428.75)<-生】
20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【在(-180142.84)<-生活】
20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【唐(-360285.75)<-在】 【唐朝(-180142.84)<-在】
20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【朝(-540428.6)<-唐】
20:18:25.551 [main] DEBUG org.apdplat.word.segmentation.impl.MaxNgramScore - 【END(-360285.75)<-唐朝】
20:18:25.551 [main] DEBUG org.apdplat.word.recognition.PersonName - 人名识别:[我, 生活, 在, 唐朝]
[{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"我"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"叫"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"李太白"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"我"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"是"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"一个"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"诗人"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"我"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"生活"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"在"},{"acronymPinYin":"","antonym":[],"frequency":0,"fullPinYin":"","synonym":[],"text":"唐朝"}]
网友评论