美文网首页
2019-02-20

2019-02-20

作者: Huxx4ever | 来源:发表于2019-02-20 15:59 被阅读0次

    一些共识

    三级标签,如 ‘话题/事件/秋游’,统一将‘事件’划分为‘类别(category)’, 将‘秋游’划分为‘主题(topic)’。

    9.28 keywords&frequency

    input:

    content.txt, keywords.txt, stopwords.txt

    output:

    content1...13.txt, keywords1...13.txt, label1...13.txt, doc1...13.txt, pseg1...13.txt, new_keywords1...13.txt, final1...13.txt, final.txt

    task:

    对keywords.txt(由使用通过doc2vec和tf-idf插值得到的)补充词性标注信息

    details:

    1. 手动将content.txt数据集按category分类,分为13个小的content数据集如content1.txt,content2.txt,..., content13.txt。对keywords.txt数据集做同样的操作得到keywords1.txt, keywords2.txt, ..., keywords13.txt。
    2. 对每个小的contentk.txt数据集,分割标签和作文内容,再根据topic进行串联/合并(串联/合并topic相同的作文内容),得到label1.txt, label2.txt, ..., label13.txt和doc1.txt, doc2.txt, ..., doc13.txt。
    3. 对每个小的dock.txt数据集,进行切词、词性标注、过滤停用词、统计词频,以dict的形式存储于pseg1.txt, pseg2.txt, ..., pseg13.txt。
    4. 对每个小的keywordsk.txt数据集,末尾添加‘;.',得到新的new_keywords1.txt, new_keywords2.txt, ..., new_keywords13.txt。(这一步应该是为了之后split keywords的时候省事 但其实制造了多余的中间结果)
    5. 根据每个小的new_keywordsk.txt, 从相应的psegk.txt中按行copy对应词汇的词性和频率,得到final1.txt, final2.txt, ..., final13.txt。
    6. 重新按照格式合并所有的小finalk.txt,得到最终的词性标注结果final.txt

    相关文章

      网友评论

          本文标题:2019-02-20

          本文链接:https://www.haomeiwen.com/subject/ctucyqtx.html