美文网首页知识图谱
知识图谱笔记 3 知识抽取与挖掘(上)

知识图谱笔记 3 知识抽取与挖掘(上)

作者: 朴老板今天学习了么 | 来源:发表于2018-08-13 16:33 被阅读339次

    知识抽取任务定义和相关比赛

    知识可以来自于关系型数据库、外部的开放知识图谱的数据、客户的日志等结构化数据以及表格、关键词、引用等半结构化数据和文本数据、多媒体数据等非结构化数据。

    Data acquisition->LD Dataset(Vocabulary Mapping->Interlinking->Cleansing->Integrated Dataset)->Access(Publishing->SPARQL Endpoint)->Application 

    知识抽取技术:

    从不同来源、不同结构的数据中进行知识提取,形成知识存入到KG

    实体抽取

    关系抽取

    事件抽取

    从结构化数据库中获取知识:D2R——复杂表数据的处理

    从连接数据中获取知识:图映射——数据对齐

    从半结构化(网站)数据中获取知识:使用包装器——方便的包装器定义方法,包装器自动生成、更新与维护

    从文本中获取知识:信息抽取——结果的准确率与覆盖率

    子任务:

    命名实体识别:检测/分类

    术语抽取:从语料中发现多个单词组成的相关术语

    关系抽取:特定指二元关系

    确定触发词->根据触发词下特定的槽抽取宾语

    共指消解(主语的确定)

    比赛:

    MUC:

    正规文本抽取

    命名实体识别——NER

    共指消解——CR

    ACE:

    对MUC融合、分类、细化

    实体检测和识别——EDR——细化了实体分类(person/organizations.....)

    数值检测与识别——VAL(百分比/钱/邮箱.......)

    事件表达检测与识别——TERN

    关系检测与识别——RDR

    事件检测与识别——VDR

    KBP:

    对ACE的进一步修订

    实体发现与链接——EDL——需要知识库中唯一URL去链接实体

    槽填充——SF——事件/多元关系抽取,对于谓语填充主语和宾语

    事件抽取——Event

    信念和情感——BeSt——抽取知识的额外描述

    整合任务:端到端冷启动知识构建——对数据层进行学习和扩充

    SemEval:

    国际权威的词义消歧评测

    一、面向非结构化数据的知识抽取

    1、实体抽取:

    抽取文本中的原子信息元素(person/organizations.....)

    序列标注方法:

    人工特征(词本身的特征/前后缀特征/字本身的特征)

    IOB标注体系:O(Others)/B-ORG(组织开始字)/I-ORG(组织中间词)....

    HMM:隐马尔科夫模型——有向图模型/生成式模型/假设特征之间是独立的

    CRF:条件随机场——无向图模型/判别式模型/没有关于特征之间是独立的

    LSTM+CRF:深度学习和机器学习相结合

    word embeddings->Bi-LSTM encoder->CRF Layer

    实体识别与链接:

    小白,我想听一首海阔天空(应对新兴实体)->rdf:type MuisicWork(处理大规模细粒度实体识别)->找到音乐KG中的内容->执行消歧->完成链接

    文本->实体指称识别->候选实体生成->候选实体消歧->链接

    开源工具:

    Wikipedia Miner

    DBpedia Spotligth

    OpenCalais

    2、关系抽取:

    信息抽取研究领域任务之一,从文本中抽取两个或多个实体之间的语义关系

    抽取元组->清理->融合->人工审核->KG

    基于模板:

    基于触发词的Pattern

    基于依存句法分析的Pattern:以动词为起点,构建规则,对节点上的词性和边上的依存关系进行限定

    监督学习:

    确定实体对之后根据上下文对实体关系预测

    轻量级特征——字

    中等量级特征——词组

    重量级特征——句

    Pipeline:

    实体识别与关系分类完全分离(串联)

    CR-CNN(卷积神经网络)

    词向量和位置向量作为输入

    F1=84.1

    Att-CNN

    调整权重

    应用注意力机制,针对不同关系优化

    F1=88.0

    Att-BLSTM

    输入层->embedding层->LSTM层->注意力层->输出层

    Joint Model:

    实体识别与关系分类的过程共同优化(并联),实现全局的最优化,但是参数空间会变大

    LSTM-RNNs

    Bi-LSTM->Bi-TreeLSTM(依存关系->依存树)->PHYS

    半监督学习:

    存在语义漂移

    远程监督:

    从知识库中抽取存在的关系的实体对->从非结构化的文本中抽取含有实体对的句子作为训练样例

    PCNNs

    piecewise max-pooling:实体分为几段做maxpooling,刻画更精准

    多实例学习:找到处理句中实体同时出现且句型相似的句子做句子级别的Attention

    Bootstrapping

    可以去学模板

    给定种子集合->发现Pattern->利用冗余性进行频率统计->归纳Pattern->将抽取出的Pattern去文档集中匹配->根据Pattern抽取出信的文档如种子库、迭代直到收敛为止

    3、事件抽取:

    多元关系抽取

    事件描述->事件触发->事件元素->元素角色

    事件嵌套:

    事件会发展,有跟踪后续

    通过更大事件集合嵌套小事件

    pipeline

    事件识别Trigger Classifier->元素抽取Argument Classifier->属性分类Role Classifier->可报告性判别Reportable-Event Classifier

    性能会衰减

    Joint Inference

    构建n个模型,集成学习

    max(f1+f2+...+fn)

    避免性能衰减

    Joint Modeling

    多任务学习,共享底层特征

    避免性能衰减

    动态多池化层

    扩充语料:

    FrameNet/从网络获取事件信息(多源整合获得完整信息)

    二、面向结构化数据的知识抽取

    关系数据库——shema+mapping——>KG

    W3C标准Mapping languages:R2RML

    工具:D2R/Virtuoso

    直接映射direct mapping

    关联类别->每一行形成三元组->外键对应

    没办法灵活定制

    R2RML

    OnTop

    三、面向半结构化数据的知识抽取

    有一定结构且相对好抽取

    百科类知识抽取:

    DBpedia

    基于Wikimedia抽取

    Generic Infobox Extraction(同义属性不做映射)/Mapping-based Infobox Extraction(二次处理,属性对齐)

    Web网页数据抽取:包装器生成

    手工方法:

    XPath表达式(XML路径语言)/CSS选择器表达式

    手工方法/包装器归纳/自动抽取->生成包装器->输入网页->输出需要的信息

    包装器归纳:网页输入->网页清洗->网页标注->Wrapper Space生成->Wrapper评估->输出包装器

    包装器评估:准确率/召回率

    自动抽取:

    包装器训练/包装器应用

    页面比较后替换->形成包装器

    RoadRunner

    Web tables

    表格实体消歧:位于相同行/列的字符可能相关,可以去做联合的消歧

    在线知识抽取:

    Category(人工观察分类)->命名规则方法->主语融合(同名不同实体/同实体不同名)->谓词融合->宾语融合(单值属性/多值属性)->对infobox补全

    相关文章

      网友评论

        本文标题:知识图谱笔记 3 知识抽取与挖掘(上)

        本文链接:https://www.haomeiwen.com/subject/msuubftx.html