美文网首页
文本挖掘 HW1

文本挖掘 HW1

作者: 在做算法的巨巨 | 来源:发表于2018-07-11 21:23 被阅读0次

    HW1介绍:
    对已经建好的corpos库进行column拓展,拓展对象是ClassList.txt的文本信息。

    import os
    import os.path
    import codecs #避免编码不统一导致open file失效
    import pandas as pd
    #data import
    filePaths=[]
    fileContents=[]
    a=os.walk("D:/BaiduNetdiskDownload/2.1 语料库/2.1/SogouC.mini/Sample")
    
    for root, dirs, files in os.walk("D:/BaiduNetdiskDownload/2.1 语料库/2.1/SogouC.mini/Sample"):
        for name in files:
            filePath=os.path.join(root,name)
            filePaths.append(filePath)
            f = codecs.open(filePath,'r','utf-8')
            fileContent=f.read()
            f.close()
            fileContents.append(fileContent)
    #建立corpos库
    corpos = pd.DataFrame({'filePath':filePaths,'fileContent':fileContents})
    #要把classList.txt并入我们发现,首先需要做的是匹配前边的class编号,每一个编号都有10种文本
    classList=pd.read_table("D:/BaiduNetdiskDownload/2.1/SogouC.mini/ClassList.txt",header=None,encoding='gb2312')
    
    corpos['classNo']=corpos['filePath'].str.slice(-14,-7)
    classList.columns=['classNo','className']
    
    corpos=pd.merge(corpos,classList,how='left')
    
    预览

    相关文章

      网友评论

          本文标题:文本挖掘 HW1

          本文链接:https://www.haomeiwen.com/subject/yothpftx.html