分词
常见问题
分词标准
序列标注
命名实体识别(NER)
新词发现
语义消歧
基于词典与规则
正向最大匹配
反向最大匹配
最少切分
基于统计与概率
隐马尔科夫模型(HMM)
例如:jieba分词、中科院NLPIR(原ICTCLAS)
条件随机场(CRF)
例如:StanfordNLP、CRF++
基于深度学习
Bi-LSTM+CRF
词性标注
常见问题
词性消歧
词性分类
词性标注
基于词典与规则
基于统计与概率
最大熵
HMM
CRF
基于深度学习
Bi-LSTM+CRF
文本表示
常见问题
降维
语义表示
特征选取
文本除噪
常用方法
布尔模型
向量空间模型(VSM)
独热编码(one-hot)
TF-IDF
词袋
n-gram
概率模型
Mixture of unigram
LSA/LSI
PLSA
LDA
图空间模型
基于深度学习
文本分类
常见问题
情感分析
短文本分类
新闻分类
常用方法
基于知识规则
专家制定规则
基于统计学习
SVM
KNN
最大熵
朴素贝叶斯
遗传算法
基于深度学习
fastText——相关论文
TextCNN——相关论文
TextRNN + Attention——相关论文
TextRCNN——相关论文
文档自动摘要
基本步骤
文本分析
文本内容的选取和泛化
文摘的转化和生成
类型
基于抽取
打分排序
压缩式摘要
基于抽象
应用范围
学术文献
会议记录
电影剧本
学生反馈
软件代码
直播文字
知识图谱
常用方法
知识抽取
实体抽取
基于百科或垂直站点提取
基于规则与词典
启发式算法
规则模板
基于统计学习
KNN+CRF
最大熵
基于深度学习
Bi-LSTM+CRF
面向开放域的实体抽取
迭代拓展
搜索聚类
关系抽取
模式匹配
开放式实体关系抽取
二元
n元
基于联合推理的实体关系抽取
基于马尔可夫逻辑网
基于本体推理的深层隐含关系抽取方法
属性抽取
知识融合
实体对齐
成对实体对齐
基于传统概率模型
基于聚类
基于机器学习
局部集体实体对齐
全局集体实体对齐
基于相似性传播
基于概率模型
LDA模型、CRF模型、Markov逻辑网等
知识合并
知识加工
本体构建
实体并列关系相似度计算
实体上下位关系抽取
本体的生成
知识推理(推荐阅读)
基于逻辑
基于图
基于深度学习
质量评估
知识更新
逻辑层面
包括概念层的更新和数据层的更新
内容层面
包括全量与增量
应用
智能搜索
构建人物关系图
反欺诈(推荐阅读)
不一致性验证
异常分析
静态分析
动态分析
失联客户管理
网友评论