美文网首页
python处理中文文本

python处理中文文本

作者: fanbo | 来源:发表于2017-05-26 12:58 被阅读0次

最近遇到一个问题,要处理一堆中文文本,这些中文文本在同一个文件夹中,编码格式各不相同。我用codecs的时候需要指定文件的编码格式,这个时候就不是那么好用了。

搜来搜去,发现python-magic这个库可以完成我的任务。

首先安装python-magic

pip install python-magic

然后我们可以处理这个文件夹了

# -*- coding= utf-8 -*-
import codecs as cs
import os

for p, d, fs in os.walk('test'):
    for f in fs:
        blob = open(os.path.join(p, f)).read()
        m = magic.Magic(mime_encoding=True)
        encoding = m.from_buffer(blob)
        if encoding == 'utf_16be':
            encoding = 'utf_16_be'
        ......
        with cs.open(os.path.join(p, f), 'r', encoding):
            some operations

相关文章

  • python处理中文文本

    最近遇到一个问题,要处理一堆中文文本,这些中文文本在同一个文件夹中,编码格式各不相同。我用codecs的时候需要指...

  • 简单的中文分词算法

    想了解点中文文本处理的底层一些的知识,在网上查了下跟python有关的文本分析书记,意外发现一本新书。 书籍简介 ...

  • 《Python数据处理》(高清中文版PDF+源代码)免费下载

    《Python数据处理》(高清中文版PDF+源代码)免费下载 《Python数据处理》(高清中文版PDF+源代码)...

  • Snownlp

    简介 SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,...

  • 字符串

    Python3中文本与二进制彻底分离 字符串存储Unicode文本 r, raw string Python3中默...

  • 分词实验报告

    在对中文文本信息进行处理前,先将成段的文本分割成更小的词汇单元,这个过程即是中文分词。中文分词是智能检索、...

  • 没有深入只有浅出的PHP

    PHP(超文本预处理器) PHP(外文名:PHP: Hypertext Preprocessor,中文名:“超文本...

  • 数据分析实战1:天猫商品评论情感词分析(基于SnowNLP)

    SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现...

  • 深度学习|中文文本的分类(建模篇)

    前言 上回我们处理好了中文文本,具体的步骤如下: 数据情况 中文文本分词 建立token token转换为列表 统...

  • 豆瓣评分预测

    中文分词 中文分词包jieba,用jieba对原始文本做分词。 文本预处理 1. 去掉无用的字符 2. 去掉停用词...

网友评论

      本文标题:python处理中文文本

      本文链接:https://www.haomeiwen.com/subject/slatfxtx.html