美文网首页
eventextraction:中文文本数据逻辑信息抽取库

eventextraction:中文文本数据逻辑信息抽取库

作者: 大邓和他的python | 来源:发表于2020-04-26 13:14 被阅读0次

一、文本事理类型分析

中文复合事件抽取,可以用来识别文本的模式,包括条件事件、顺承事件、反转事件。

我仅仅是对代码做了简单的修改,增加了函数说明注释和stats函数,可以用于统计文本中各种模式的分布(数量)情况。代码原作者为刘焕勇 https://github.com/liuhuanyong

事件图谱(事理图谱)的类型

项目地址https://github.com/liuhuanyong/ComplexEventExtraction 项目介绍很详细,感兴趣的一定要去原项目看一下。

事件 含义 形式化 事件应用 图谱场景 举例
条件事件 某事件条件下另一事件发生 如果A那么B 事件预警 时机判定 <限制放宽,立即增产>
反转事件 某事件与另一事件形成对立 虽然A但是B 预防不测 反面教材 <起步晚,发展快>
顺承事件 某事件紧接着另一事件发生 A接着B 事件演化 未来意图识别 <去旅游,买火车票>

分析出文本中的条件、顺承、反转,理论上就可以构建知识网络(本库做不到这可视化)。
1、反转事件图谱

but.png

2、条件事件图谱

condition.png

二、安装方法

2.1 方法一

最简单的安装,现在由于国内外网络不稳定,可能需要尝试几次

pip3 install eventextraction

2.2 加镜像站点

有的童鞋已经把pip默认安装镜像站点改为国内,如果国内镜像还未收录我的这个包,那么可能会安装失败。只能从国外

https://pypi.org/simple

站点搜索eventextraction资源并安装

pip3 install eventextraction -i https://pypi.org/simple

2.3 国内镜像安装

如果国内镜像站点已经收录,那么使用这个会更快

pip3 install eventextraction -i https://pypi.tuna.tsinghua.edu.cn/simple/

三、使用

3.1 主函数

from eventextraction import EventsExtraction

extractor = EventsExtraction()
content = '虽然你做了坏事,但我觉得你是好人。一旦时机成熟,就坚决推行'
datas = extractor.extract_main(content)
print(datas)

运行结果

[{'sent': '虽然你做了坏事,但我觉得你是好人', 'type': 'but', 'tuples': {'pre_wd': '虽然', 'pre_part': '你做了坏事,', 'post_wd': '但', 'post_part ': '我觉得你是好人'}},
{'sent': '一旦时机成熟,就坚决推行', 'type': 'condition', 'tuples': {'pre_wd': '一旦', 'pre_part': '时机成熟,', 'post_wd': '就', 'post_part ': '坚决推行'}}]

3.2 统计

from eventextraction import EventsExtraction

extractor = EventsExtraction()
content = '虽然你做了坏事,但我觉得你是好人。一旦时机成熟,就坚决推行'
datas = extractor.extract_main(content)
print(extractor.stats(datas))

运行结果

{'but': 1, 'condition': 1, 'seq': 0, 'more': 0, 'other': 0}

更多

相关文章

  • eventextraction:中文文本数据逻辑信息抽取库

    一、文本事理类型分析 中文复合事件抽取,可以用来识别文本的模式,包括条件事件、顺承事件、反转事件。 我仅仅是对代码...

  • Greedy NLP Learning Notes(六)信息抽取

    1. 目录 从非结构化文本中进行信息抽取从非结构化文本中进行信息抽取非结构化数据:图像、文本、视频、声音结构化数据...

  • 爬虫脚本--pdf处理思路

    pdf处理思路 1 抽取文本数据 2 抽取图片数据 3 抽取表格数据 ==》 人名 地名 年代 ==》 行业 ...

  • 知识图谱学习笔记(五)——实体识别(1)

    实体识别(信息抽取) 1. 信息抽取概述 信息抽取定义:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,...

  • kettle使用笔记(三)--中文乱码

    kettle抽取数据时会出现中文乱码的问题,我们可以通过修改kettle中数据库的characterEncodin...

  • 测试

    测试 数据抽取方式根据数据源提供数据接口类型确定,一般提供可能有socket、kafka、redis、文本、数据库...

  • JSONPath解析json

    JSONPath 用来解析多层嵌套的json数据,JsonPath 是一种信息抽取类库,是从JSON文档中抽取指定...

  • 文本挖掘与自然语言处理

    一、文本数据挖掘的定义 文本数据挖掘是一种利用计算机处理技术从文本数据中抽取有价值的信息和知识的应用驱动型学科。(...

  • 评分卡流程

    一、了解业务,确定最终目的; 二、理解数据,从数据库中抽取数据/或者网上爬取数据; 逻辑上理解数据,筛选x...

  • JavaFX, 新一代GUI库 - 用户交互(1)

    页面数据展示出来后, 用户如何与工具互动呢? 1. 抽取数据 正常情况下, 数据来自于文本, 或者直接读取数据库,...

网友评论

      本文标题:eventextraction:中文文本数据逻辑信息抽取库

      本文链接:https://www.haomeiwen.com/subject/lamdwhtx.html