美文网首页python源码大全大数据 爬虫Python AI Sqlpython自学
Python代码库之gbk与utf8正确转换并提取关键内容(含d

Python代码库之gbk与utf8正确转换并提取关键内容(含d

作者: iCloudEnd | 来源:发表于2019-08-01 22:07 被阅读2次

格式转换问题是处理文件的难点之一,下面我们来介绍一个最优解决方案

关键代码

  • 无论什么格式都先读取进来
f=open(filename,"rb")
  • 解码gbk
d=c.decode('gbk',errors="ignore")

完成demo源码

filename="1116.html"
#读取文件
f=open(filename,"rb")
c=f.read()

# 格式转码
d=c.decode('gbk',errors="ignore")

#解析
import re 
def getSearch(mstr,d):
    v=''
    m=re.search(mstr,d,re.I)
    if m:v=m.group(1)
    return v

#d="<li >拼 音:bìng</li>"

mstr=r"拼 音:(.*?)<"
pinyin=getSearch(mstr,d).strip()

更多精彩代码请关注我的专栏

关键词

程序员 方向 云计算 前途 微信 毕设 学霸 能量

相关文章

网友评论

    本文标题:Python代码库之gbk与utf8正确转换并提取关键内容(含d

    本文链接:https://www.haomeiwen.com/subject/oyjhdctx.html