美文网首页大数据 爬虫Python AI Sql扣丁学堂Python培训
扣丁学堂Python基础教程如何利用正则表达式筛选文本信息实例

扣丁学堂Python基础教程如何利用正则表达式筛选文本信息实例

作者: 994d14631d16 | 来源:发表于2018-07-31 13:40 被阅读0次

      今天扣丁学堂Python培训老师给大家分享一篇关于Python基础教程之如何对多个文本进行读取,并采用正则表达式对其中的信息进行筛选,将筛选出来的信息存写到一个新文本,下面我们一起来看一下吧。

    ​  文本基础操作

      打开文件:open(‘文件名',‘打开方式')>>>file=open(r'C:\Users\yuanlei\Desktop\mytxt.txt','w+').为避免报错,在文件名的引号前加个r.

      文件打开方式:只读——r或rt,rb为二进制文件;打开文件前清空文件内容——w或wt;在文末写入——a+;

      清空内容然后在文末写入——w+;写到文件任意位置——r+;

      关闭文件:文件打开运行好后必须要关闭——文件名.close()>>>mytxt.close()

      读取文件中的内容:将每行内容,包括换行符,作为一个元素存入数组——lines=file_object.readlines(),但是这样会把换行符也赋进去

      去除换行符——new_lines=lines.splitlines()

      os包:importos获取文件地址——os.listdir(父文件地址)

      下面附上实现摘要中说的功能的完整代码:

      #coding:utf-8

      #读取文本中的中英文数据并使用正则表达式将所需数据筛选入到一个新文本中

      importre

      importos

      #zhengze函数对读取到的数据进行筛选,并将筛选好的数据存入数组new_lines

      new_lines=[]#申明new_lines数组

      defzhengze(f):

      regex_str=".*?(l.*?e).*"

      forxinf:

      new_x=x.splitlines()#注意:splitlines是将传入的字符串去除'\n'之后以数组的形式传出,而不是字符串形式

      match_obj=re.match(regex_str,new_x[0])

      ifmatch_obj:

      new_lines.append(match_obj.group(1))

      else:

      new_lines.append('no')

      returnnew_lines

      #获取指定文件夹下的所有文本的绝对地址,并存入数组file_path

      path=r'C:\Users\yuanlei\Desktop\new_file_txt'

      file_path=[]

      forfilenameinos.listdir(path):#获取path下所有文件的路径

      file_path.append((os.path.join(path,filename)))

      printfile_path

      #对每个文本调用正则函数进行筛选,筛选过后的数据存入数组final

      foradressinfile_path:

      file_object=open(adress)

      lines=file_object.readlines()#将文本中的内容以数组的形式(每行为一个元素)赋给lines

      file_object.close()

      final=zhengze(lines)

      printfinal

      #将筛选出来的数据写入新文本re_new.txt

      file_2=open(r'C:\Users\yuanlei\Desktop\re_new.txt','w+')

      forxinfinal:

      file_2.write(x)

      file_2.write('\n')

      file_2.close()

      以上这篇python用正则表达式筛选文本信息的实例就是小编分享给大家的全部内容了。

    相关文章

      网友评论

        本文标题:扣丁学堂Python基础教程如何利用正则表达式筛选文本信息实例

        本文链接:https://www.haomeiwen.com/subject/tbthvftx.html