中文文本语料库整理(不定时更新2015-10-24).md

作者: gkiwi | 来源:发表于2015-10-24 23:00 被阅读20070次

中文文本语料库整理(不定时更新2015-10-24).md
Flask-APScheduler重复执行2次的解决办法
pyhanlp文本分类与情感分析
Python自然语言处理学习笔记（二）
NLTK学习记录2：使用语料库和词汇资源
python自然语言处理学习笔记（二）—— 语料库
关于语料库及国内外金融数据提供商的综述
一些概念
复旦中文文本分类语料库
批量将md文档中的图片上传到简书

声明：资源全部源自网络，如有侵权，请联系我将及时删除。

最近在网上找语料，多比较杂乱不全，所以这里做一次整理，方便大家。
如果大家手里有可以分享的语料资源，欢迎分享出来，我会一并整理到此文。

2015-10-24 : 初版

中文语料，我把它们分为这样几种；

1. 原始语料，比如某某新闻，微博合集，一些未经处理的原始语料；

搜狗20061127新闻语料(包含分类)@百度盘：
某文本截图

维基百科中文@维基dump

这个是xml格式，包含很多meta

2. 分词库(语料)，最常见的比如搜狗分词库，结巴词库；

这种词库比较好找，也比较杂乱，这里我整理了几个不错的，在这里：all@百度盘
此处尽量按照『文本组成@词数量_出处』格式进行文件命名，如下：

分词词库列表

这里比较推荐分词_频数_词性@35万_结巴.txt 和 分词_拼音@4万_搜狗.txt两个词库。如果你有一些比如拼音需求，也可以选择对应文本；

需要注意的一点是，有一个分类_分词@12大类5485文本1127万_搜狗.20151022.tar.gz文件，这个是搜狗细胞词库所有的词了，里面包含非常多的各行业词汇，如下图，在针对特定行业ML时候，这些分词应该是比较有帮助的，特别是带有【官方推荐】名字的，都非常不错。
分类_分词@12大类5485文本1127万_搜狗.20151022.tar.gz

3. 词性标注库(语料)，比如98年人民日报词性标注库@百度盘；

此处尽量按照『词性标注@行数量_出处』格式进行文件命名。
相较于上面两种语料，此语料人工标注成本太高，所以也比较少。目前我也只有98年人民日报词性标注库。不过网上说人民日报2014年词性标注库也已经有了，但是需要授权，我也没拿到。

98年人民日报词性标注库

需要说明的几点：

除了维基中文dump(比较大)是在他们服务器上，其他我都整理在了我的百度盘上了，大家自行使用。
对于分类1中的语料库，大家可以尝试从数据堂找到更多资源。

我的中文文本语料库百度盘：http://pan.baidu.com/s/1gdJJ1FP

update:

保险行业语料库 (by@3a33c371b8c4)

另:博主建了一个NLP的QQ群，希望有兴趣的朋友加入，群号: 451175756

网友评论

7ec785d3d112:楼主您好，我想问下2014人民日报的语料需要授权什么意思呀？
db5c6ac76caf:做nlp了？
db5c6ac76caf:@Shine_yzhao 👍
3a33c371b8c4:请求收录我做的一个语料：https://github.com/Samurais/insuranceqa-corpus-zh
ae17d0264ad4:@3a33c371b8c4 您好请问如何制作语料
444aad6dd61a:为什么下载之后解压缩的时候出现错误，然后就打不开了
长宁路小李子:非常赞！
JcJc错别字在线检测:多谢分享！

本文标题：中文文本语料库整理(不定时更新2015-10-24).md

本文链接：https://www.haomeiwen.com/subject/isathttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

中文文本语料库整理(不定时更新2015-10-24).md

相关文章

中文文本语料库整理(不定时更新2015-10-24).md

Flask-APScheduler重复执行2次的解决办法

pyhanlp文本分类与情感分析

Python自然语言处理学习笔记（二）

NLTK学习记录2：使用语料库和词汇资源

python自然语言处理学习笔记（二）—— 语料库

关于语料库及国内外金融数据提供商的综述

一些概念

复旦中文文本分类语料库

批量将md文档中的图片上传到简书

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

命名实体识别

机器学习与数据挖掘

NLP

自然语言处理