2019-02-20

作者: Huxx4ever | 来源:发表于2019-02-20 15:59 被阅读0次

一些共识

三级标签，如 ‘话题/事件/秋游’，统一将‘事件’划分为‘类别（category）’，将‘秋游’划分为‘主题（topic）’。

9.28 keywords&frequency

content.txt, keywords.txt, stopwords.txt

content1...13.txt, keywords1...13.txt, label1...13.txt, doc1...13.txt, pseg1...13.txt, new_keywords1...13.txt, final1...13.txt, final.txt

对keywords.txt（由使用通过doc2vec和tf-idf插值得到的）补充词性标注信息

手动将content.txt数据集按category分类，分为13个小的content数据集如content1.txt，content2.txt，..., content13.txt。对keywords.txt数据集做同样的操作得到keywords1.txt, keywords2.txt, ..., keywords13.txt。
对每个小的contentk.txt数据集，分割标签和作文内容，再根据topic进行串联/合并（串联/合并topic相同的作文内容），得到label1.txt, label2.txt, ..., label13.txt和doc1.txt, doc2.txt, ..., doc13.txt。
对每个小的dock.txt数据集，进行切词、词性标注、过滤停用词、统计词频，以dict的形式存储于pseg1.txt, pseg2.txt, ..., pseg13.txt。
对每个小的keywordsk.txt数据集，末尾添加‘;.'，得到新的new_keywords1.txt, new_keywords2.txt, ..., new_keywords13.txt。（这一步应该是为了之后split keywords的时候省事但其实制造了多余的中间结果）
根据每个小的new_keywordsk.txt, 从相应的psegk.txt中按行copy对应词汇的词性和频率，得到final1.txt, final2.txt, ..., final13.txt。
重新按照格式合并所有的小finalk.txt，得到最终的词性标注结果final.txt

本文标题：2019-02-20

本文链接：https://www.haomeiwen.com/subject/ctucyqtx.html