美文网首页
Python 词频统计-中文分词

Python 词频统计-中文分词

作者: 正在充电Loading | 来源:发表于2017-08-19 12:17 被阅读0次

    中文分词:

    我的家乡可以分为 我 的 家乡

    停用词

    数据处理,需要过来的词语和子 如web,网址等 语气助词、副词、介词、连接词等

    通过jieba中文分词包

    import jieba;

    for w in jieba.cut("我爱Python"):

    print(w)

    输出为:

    Python

    例如:

    for w in jieba.cut("""

    工信处女干事

    每月经过下属科室都要亲口交代

    24口交换机等技术性器件的安装工作

    """):

    print(w)

    输出:

    工信处

    女干事

    每月

    经过

    下属

    科室

    亲口

    交代

    24

    交换机

    技术性

    器件

    安装

    工作

    jieba包导入新的词库

    jieba.load_userdict(

    'D:\\PDM\\2.2\\金庸武功招式.txt'

    );

    中文分词统计

    第一步构建语料库

    import os;

    import os.path;

    import codecs;

    filePaths = [];

    fileContents = [];

    for root, dirs, files in os.walk(

    "D:\\PDM\\2.2\\SogouC.mini\\Sample"

    ):

    for name in files:

    filePath = os.path.join(root, name);

    filePaths.append(filePath);

    f = codecs.open(filePath, 'r', 'utf-8')

    fileContent = f.read()

    f.close()

    fileContents.append(fileContent)

    import pandas;

    corpos = pandas.DataFrame({

    'filePath': filePaths,

    'fileContent': fileContents

    });

    第二步:通过jieba分词统计

    import jieba

    segments = []

    filePaths = []

    for index, row in corpos.iterrows():

    filePath = row['filePath']

    fileContent = row['fileContent']

    segs = jieba.cut(fileContent)

    for seg in segs:

    segments.append(seg)

    filePaths.append(filePath)

    segmentDataFrame = pandas.DataFrame({

    'segment': segments,

    'filePath': filePaths

    });

    相关文章

      网友评论

          本文标题:Python 词频统计-中文分词

          本文链接:https://www.haomeiwen.com/subject/yzvarxtx.html