文本挖掘 HW1

作者: 在做算法的巨巨 | 来源:发表于2018-07-11 21:23 被阅读0次

文本挖掘 HW1
为什么说企业需要做文本挖掘呢？
ImageQ|文本挖掘工具|在线文本挖掘工具|分析"霍
文本挖掘工具,常用的文本挖掘工具分析尬舞在尴尬中退潮
一文看懂什么是文本挖掘
R语言文本挖掘tm包详解
文本挖掘工具|在线文本挖掘工具|分析娱乐圈热门语料
NLP（1）--- 初识文本挖掘
文本挖掘工具|在线文本挖掘工具|分析"女子带宝宝自考&
文本挖掘工具|在线文本挖掘工具|分析"哈勃"

HW1介绍：
对已经建好的corpos库进行column拓展，拓展对象是ClassList.txt的文本信息。

import os
import os.path
import codecs #避免编码不统一导致open file失效
import pandas as pd
#data import
filePaths=[]
fileContents=[]
a=os.walk("D:/BaiduNetdiskDownload/2.1 语料库/2.1/SogouC.mini/Sample")

for root, dirs, files in os.walk("D:/BaiduNetdiskDownload/2.1 语料库/2.1/SogouC.mini/Sample"):
    for name in files:
        filePath=os.path.join(root,name)
        filePaths.append(filePath)
        f = codecs.open(filePath,'r','utf-8')
        fileContent=f.read()
        f.close()
        fileContents.append(fileContent)
#建立corpos库
corpos = pd.DataFrame({'filePath':filePaths,'fileContent':fileContents})
#要把classList.txt并入我们发现，首先需要做的是匹配前边的class编号，每一个编号都有10种文本
classList=pd.read_table("D:/BaiduNetdiskDownload/2.1/SogouC.mini/ClassList.txt",header=None,encoding='gb2312')

corpos['classNo']=corpos['filePath'].str.slice(-14,-7)
classList.columns=['classNo','className']

corpos=pd.merge(corpos,classList,how='left')

预览

文本挖掘 HW1
HW1介绍：对已经建好的corpos库进行column拓展，拓展对象是ClassList.txt的文本信息。
为什么说企业需要做文本挖掘呢？
首先何为文本挖掘：文本挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲，文本数据挖掘是数据挖掘...
ImageQ|文本挖掘工具|在线文本挖掘工具|分析"霍
ImageQ|文本挖掘工具|在线文本挖掘工具|分析"霍金公开博士论文"。今天ImageQ的文本挖掘工具将通过分析"...
文本挖掘工具,常用的文本挖掘工具分析尬舞在尴尬中退潮
文本挖掘工具,大家平时常用的文本挖掘工具，今天拿ImageQ文本挖掘工具针对"尬舞在尴尬中退潮"的文本语料进行语义...
一文看懂什么是文本挖掘
一、什么是文本挖掘文本挖掘指的是从文本数据中获取有价值的信息和知识，它是数据挖掘中的一种方法。文本挖掘中最重要最...
R语言文本挖掘tm包详解
文本挖掘相关介绍 1、什么是文本挖掘文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且...
文本挖掘工具|在线文本挖掘工具|分析娱乐圈热门语料
文本挖掘工具|在线文本挖掘工具|分析娱乐圈热门语料。今天ImageQ的文本挖掘工具将通过分析娱乐圈热门的文本语料来...
NLP（1）--- 初识文本挖掘
1 初始文本挖掘 1.1 何为文本挖掘文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程...
文本挖掘工具|在线文本挖掘工具|分析"女子带宝宝自考&
文本挖掘工具|在线文本挖掘工具|分析"女子带宝宝自考"。今天ImageQ的文本挖掘工具将通过分析"女子带宝宝自考"...
文本挖掘工具|在线文本挖掘工具|分析"哈勃"
文本挖掘工具|在线文本挖掘工具|分析"哈勃"太空望远镜降落。今天ImageQ的文本挖掘工具将通过分析"哈勃"太空望...