每周一个 Python 模块 | glob

作者: yongxinz | 来源:发表于2019-01-30 18:30 被阅读40次

专栏地址:每周一个 Python 模块

使用 Unix shell 规则查找与模式匹配的文件名。

尽管 glob API 不多,但该模块具有很强的功能。当程序需要通过名称与模式匹配的方式查找文件列表时,它很有用。要创建一个文件列表,这些文件名具有特定的扩展名,前缀或中间的任何公共字符串,这个时候,使用glob而不是编写自定义代码来扫描目录内容。

glob 模式规则与 re 模块使用的正则表达式不同。相反,它们遵循标准的 Unix 路径扩展规则,只有少数特殊字符用于实现两个不同的通配符和字符范围。模式规则应用于文件名段(在路径分隔符处停止/),模式中的路径可以是相对的或绝对的,Shell 变量名和波浪号(~)不会展开。

示例数据

本节中的示例假定当前工作目录中存在以下测试文件。

dir
dir/file.txt
dir/file1.txt
dir/file2.txt
dir/filea.txt
dir/fileb.txt
dir/file?.txt
dir/file*.txt
dir/file[.txt
dir/subdir
dir/subdir/subfile.txt

通配符

星号(*)匹配名称段中的零个或多个字符。例如,dir/*

import glob
for name in sorted(glob.glob('dir/*')):
    print(name)
    
# output
# dir/file *.txt
# dir/file.txt
# dir/file1.txt
# dir/file2.txt
# dir/file?.txt
# dir/file[.txt
# dir/filea.txt
# dir/fileb.txt
# dir/subdir

该模式匹配目录 dir 中的每个路径名(文件或目录),而不会进一步递归到子目录中。返回的数据未排序,因此这里的示例对其进行排序以便更直观地展示结果。

要列出子目录中的文件,子目录必须包含在模式中。

import glob

print('Named explicitly:')
for name in sorted(glob.glob('dir/subdir/*')):
    print('  {}'.format(name))

print('Named with wildcard:')
for name in sorted(glob.glob('dir/*/*')):
    print('  {}'.format(name))
    
# output
# Named explicitly:
#   dir/subdir/subfile.txt
# Named with wildcard:
#   dir/subdir/subfile.txt

前面显示的第一种情况明确列出了子目录名称,而第二种情况依赖于通配符来查找目录。

在这种情况下,结果是相同的。如果有另一个子目录,则通配符将匹配两个子目录并包含两者的文件名。

单字符通配符

问号(?)是另一个通配符。它匹配名称中该位置的任何单个字符。

import glob

for name in sorted(glob.glob('dir/file?.txt')):
    print(name)
    
# output
# dir/file*.txt
# dir/file1.txt
# dir/file2.txt
# dir/file?.txt
# dir/file[.txt
# dir/filea.txt
# dir/fileb.txt

示例匹配所有以 file 开头的文件名,具有任何类型的单个字符,然后以 .txt 结束。

字符范围

使用字符范围([a-z])而不是问号来匹配多个字符之一。此示例在扩展名之前查找名称中带有数字的所有文件。

import glob
for name in sorted(glob.glob('dir/*[0-9].*')):
    print(name)
    
# output
# dir/file1.txt
# dir/file2.txt

字符范围[0-9]匹配任何单个数字。范围根据每个字母/数字的字符代码排序,短划线表示连续字符的连续范围。可以写入相同的范围值[0123456789]

转义元字符

有时需要搜索名称中包含特殊元字符(glob用于模式匹配)的文件。escape()函数使用特殊字符“转义”构建合适的模式,因此它们不会被扩展或解释为特殊字符。

import glob

specials = '?*['

for char in specials:
    pattern = 'dir/*' + glob.escape(char) + '.txt'
    print('Searching for: {!r}'.format(pattern))
    for name in sorted(glob.glob(pattern)):
        print(name)
    print()
    
# output
# Searching for: 'dir/*[?].txt'
# dir/file?.txt
# 
# Searching for: 'dir/*[*].txt'
# dir/file*.txt
# 
# Searching for: 'dir/*[[].txt'
# dir/file[.txt

通过构建包含单个条目的字符范围来转义每个特殊字符。

相关文档:

https://pymotw.com/3/glob/index.html

相关文章

  • 每周一个 Python 模块 | glob

    专栏地址:每周一个 Python 模块 使用 Unix shell 规则查找与模式匹配的文件名。 尽管 glob ...

  • 004python中glob模块的使用

    python glob model 说明: 1、glob是python自己带的一个文件操作相关模块,用它可以查找符...

  • python的glob模块

    1. glob在Python中作用 python在模块glob中定义了glob()函数,实现了对目录内容进行匹配的...

  • glob模块查找目录和文件

    glob glob模块也是Python标准库中一个重要的模块,主要用来查找符合特定规则的目录和文件,并将搜索的到的...

  • 【python】glob模块

    glob模块 glob模块通配符 通配符功能*匹配0或多个字符**匹配路径下 “所有文件的名字”及“所有子目录的文...

  • Python glob模块

    Python glob模块用于查找指定路径下,符合一定命令规则的文件,并返回文件列表。 查找文件只用到三个匹配符:...

  • Python | glob

    参考:公众号 | Python模块 | glob模块详解[https://mp.weixin.qq.com/s/F...

  • Python中glob模块的使用

    本篇文章介绍Python中的glob模块的基本使用。glob模块可以按指定路径得到所有符合条件的文件的完整路径。g...

  • Python模块学习----glob

    今天先介绍glob模块,这个模块很简单,主要是用来搜索文件用的,有点像windows下的搜索。 glob模块是最简...

  • Python之glob模块

    一、 glob模块通配符 1.当前路径下所有py文件 2.当前路径文件tmp下py文件 3.单字通配符?,当前路径...

网友评论

    本文标题:每周一个 Python 模块 | glob

    本文链接:https://www.haomeiwen.com/subject/uvicsqtx.html