中文短文本摘要数据集

作者: Funzion | 来源:发表于2018-06-20 16:41 被阅读4次

背景

由于目前没有公开的免费的中文短文本摘要数据集,正好在之前的项目中有收集过这样的数据。现在把之前整理的数据公开,所有人都可以免费下载使用,希望能成为一个有用的中文短文本摘要数据集。

英文名称

Chinese Short Text Summarization Dataset

收集方式

数据来源于新浪微博主流媒体发布的微博。
例如:


微博示例一
微博示例二
微博示例三

如上的三条微博所示中,红框中的文本作为短文本的摘要,其他的内容作为短文本的内容。

数据量

在这个版本中,一共 679898 条数据,分为两个文件:

文件名称 说明
train_text.txt 短文本的内容,约100-200字
train_label.txt 短文本的摘要,约10-20字

下载方式

百度网盘:https://pan.baidu.com/s/1NWe6K33GMTp4Wk7CwaGotA
密码:4k12

Cite as:

{
Author: He Zhengfang
Dataset Name: Chinese Short Text Summarization Dataset
Publish Date: 20th June, 2018.
}

相关文章

  • 中文短文本摘要数据集

    背景 由于目前没有公开的免费的中文短文本摘要数据集,正好在之前的项目中有收集过这样的数据。现在把之前整理的数据公开...

  • 中文文本特征可视化

    拿到一个文本数据集,需要查看数据集文本的基本信息,包括词频、文本长度、类别分布等。这里以文本分类的数据集为例,对数...

  • 用Python做文本挖掘的流程

    摘要:用Python做文本挖掘的流程 收集数据 数据集。如果是已经被人做成数据集了,这就省去了很多麻烦事 抓取。这...

  • 【Tool】Resource of Code and Datas

    CV Datasets 深度学习数据集 视觉代码和数据集 ML Dataset 音乐,文本,人脸等数据集 DL R...

  • 抓取一切中文网页文字

    做网页内容分类或者NLP研究时,往往需要研究者自己建文本数据集,对模型进行训练。Stallions对抓取中文网页有...

  • 实习日记:海量中文文本数据去重 算法及实现

    在某视频公司实习的时候遇到一个问题,也不算海量吧,200万左右的短中文文本数据去重,然后在Elasticsearc...

  • Python TextRank4ZH 应用TextRank算法对

    TextRank算法可以用来从文本中提取关键词和摘要。TextRank4ZH是针对中文文本的TextRank算法的...

  • QuickBI助你成为分析师-数据建模(二)

    摘要: 数据集编辑功能界面介绍以及常见问题总结。 在数据集编辑界面可以进行数据建模来更好的展示数据,创建数据集默认...

  • 深度学习|中文文本的分类(建模篇)

    前言 上回我们处理好了中文文本,具体的步骤如下: 数据情况 中文文本分词 建立token token转换为列表 统...

  • 模型预测流程

    一. 文本数据的处理,包括去除特殊符号,去除低频词,去除停止词。 二. 把数据分为训练集和测试集 三. 把文本转换...

网友评论

  • 一路行走_a539:你好,你的数据集很好!我想问一下你的数据集又在论文使用过么?
    Funzion:@一路行走_a539 目前没有。

本文标题:中文短文本摘要数据集

本文链接:https://www.haomeiwen.com/subject/lzrxyftx.html