背景
比如我们有比较确定的几十类实体,并且每一类实体的值都是已知的,也就是在一个有限集合类做NER实体识别。
基于lucene的召回
- 把实体做成字典,比如 公司名,公司简称
- 设置实体识别的一些黑名单,比如【行业,公司,基金等等】
- 使用lucence对 数据字典中 name,alias等进行索引化。
- 对query 进行parer,然后使用lucence 查询索引中top10的排序。
自定义排序
- 对query 和 doc 进行2-gram的分词。
- 基于token list 计算最大的连续token序列,比如 query=“上海实业基金公司的业绩”,那么doc1=“上海实业”,doc2=“上海实业基金”
doc2的最大序列更长,那么应该就是doc2的得分更高。
正则表达进一步增强
- 使用正则表达式去识别一些时间,数字,公式等特殊的实体。
- 使用正则表达式去识别一些 有 数据字时间组合的实体,比如2021年到2022年。
网友评论