美文网首页命名实体识别机器学习与数据挖掘NLP
中文文本语料库整理(不定时更新2015-10-24).md

中文文本语料库整理(不定时更新2015-10-24).md

作者: gkiwi | 来源:发表于2015-10-24 23:00 被阅读20070次

    声明:资源全部源自网络,如有侵权,请联系我将及时删除。

    最近在网上找语料,多比较杂乱不全,所以这里做一次整理,方便大家。
    如果大家手里有可以分享的语料资源,欢迎分享出来,我会一并整理到此文。


    2015-10-24 : 初版


    中文语料,我把它们分为这样几种;

    1. 原始语料,比如某某新闻,微博合集,一些未经处理的原始语料;

    这个是xml格式,包含很多meta

    2. 分词库(语料),最常见的比如搜狗分词库,结巴词库;

    这种词库比较好找,也比较杂乱,这里我整理了几个不错的,在这里:all@百度盘
    此处尽量按照『文本组成@词数量_出处』格式进行文件命名,如下:

    分词词库列表
    • 这里比较推荐分词_频数_词性@35万_结巴.txt分词_拼音@4万_搜狗.txt两个词库。如果你有一些比如拼音需求,也可以选择对应文本;
    • 需要注意的一点是,有一个分类_分词@12大类5485文本1127万_搜狗.20151022.tar.gz文件,这个是搜狗细胞词库所有的词了,里面包含非常多的各行业词汇,如下图,在针对特定行业ML时候,这些分词应该是比较有帮助的,特别是带有【官方推荐】名字的,都非常不错。
      分类_分词@12大类5485文本1127万_搜狗.20151022.tar.gz

    3. 词性标注库(语料),比如98年人民日报词性标注库@百度盘

    此处尽量按照『词性标注@行数量_出处』格式进行文件命名。
    相较于上面两种语料,此语料人工标注成本太高,所以也比较少。目前我也只有98年人民日报词性标注库。不过网上说人民日报2014年词性标注库也已经有了,但是需要授权,我也没拿到。


    98年人民日报词性标注库

    需要说明的几点:

    • 除了维基中文dump(比较大)是在他们服务器上,其他我都整理在了我的百度盘上了,大家自行使用。
    • 对于分类1中的语料库,大家可以尝试从数据堂找到更多资源。

    我的中文文本语料库百度盘:http://pan.baidu.com/s/1gdJJ1FP


    update:

    另:博主建了一个NLP的QQ群,希望有兴趣的朋友加入,群号: 451175756

    相关文章

      网友评论

      本文标题:中文文本语料库整理(不定时更新2015-10-24).md

      本文链接:https://www.haomeiwen.com/subject/isathttx.html