Python 词频统计-中文分词

Python 词频统计-中文分词

作者: 正在充电Loading | 来源:发表于2017-08-19 12:17 被阅读0次

中文分词：

我的家乡可以分为我的家乡

停用词

数据处理，需要过来的词语和子如web，网址等语气助词、副词、介词、连接词等

通过jieba中文分词包

import jieba;

for w in jieba.cut("我爱Python"):

print(w)

输出为：

我

爱

Python

例如：

for w in jieba.cut("""

工信处女干事

每月经过下属科室都要亲口交代

24口交换机等技术性器件的安装工作

"""):

print(w)

输出：

工信处

女干事

每月

经过

下属

科室

都

要

亲口

交代

24

口

交换机

等

技术性

器件

的

安装

工作

jieba包导入新的词库

jieba.load_userdict(

'D:\\PDM\\2.2\\金庸武功招式.txt'

);

中文分词统计

第一步构建语料库

import os;

import os.path;

import codecs;

filePaths = [];

fileContents = [];

for root, dirs, files in os.walk(

"D:\\PDM\\2.2\\SogouC.mini\\Sample"

):

for name in files:

filePath = os.path.join(root, name);

filePaths.append(filePath);

f = codecs.open(filePath, 'r', 'utf-8')

fileContent = f.read()

f.close()

fileContents.append(fileContent)

import pandas;

corpos = pandas.DataFrame({

'filePath': filePaths,

'fileContent': fileContents

});

第二步：通过jieba分词统计

import jieba

segments = []

filePaths = []

for index, row in corpos.iterrows():

filePath = row['filePath']

fileContent = row['fileContent']

segs = jieba.cut(fileContent)

for seg in segs:

segments.append(seg)

filePaths.append(filePath)

segmentDataFrame = pandas.DataFrame({

'segment': segments,

'filePath': filePaths

});

相关文章

网友评论

本文标题：Python 词频统计-中文分词

本文链接：https://www.haomeiwen.com/subject/yzvarxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Python 词频统计-中文分词|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！