中文实现的crf算法下载:
https://jaist.dl.sourceforge.net/project/crf/
https://github.com/witgo/CRF
机械匹配的时候,从前到后,和从后到前,哪一种方法更加准确。
词库整理的技巧
1、在现有词库的基础上,进行分词,在分出来的词的基础上,进行人工整理
2、不使用词库,在机械匹配的基础上,进行人工整理
3、使用基于统计的分词方法,进行人工整理
机械匹配的方法
向后循环,向后匹配
向后循环,向前匹配
向前循环,向前匹配
向前循环,向后匹配
这4种,哪一种最准确呢?
http://blog.csdn.net/ifengle/article/details/3849852
(conditional random fields,简称 CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,基于统计学,可以作为一种分词方法
CRF简介
Conditional Random Field:条件随机场,一种机器学习技术(模型)。
CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:
- 分词(标注字的词位信息,由字构词)
- 词性标注(标注分词的词性,例如:名词,动词,助词)
- 命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词)
网友评论