美文网首页
python遍历目录获取子目录名/特定后缀文件

python遍历目录获取子目录名/特定后缀文件

作者: 哈莉_奎茵 | 来源:发表于2018-02-07 01:04 被阅读0次

    前言

    最近帮忙打杂,需要批量处理文件,因此写了脚本,不过后来发现目录数量增加了,再一个个修改目录名重新运行有的麻烦,于是研究了下python操作文件系统的方法。毕竟python方便移植,不需要像C++那样需要编译,对于VC依赖用户而言,换操作系统的话还要改下VS的VC运行库的配置。参考我之前一篇C++遍历目录的博客Linux和Windows的遍历目录下所有文件的方法对比

    相应python模块的方法

    思路很简单,首先遍历目录下所有文件(这里指广义的文件),然后对文件进行判断(属性是否为目录,后缀是否为xxx)。而python提供的功能更为强大,利用os模块的walk方法能直接遍历当前目录和整个子目录的文件。

    walk(top, topdown=True, onerror=None, followlinks=False)
        Directory tree generator.
        
        For each directory in the directory tree rooted at top (including top
        itself, but excluding '.' and '..'), yields a 3-tuple
        
            dirpath, dirnames, filenames
        
        dirpath is a string, the path to the directory.  dirnames is a list of
        the names of the subdirectories in dirpath (excluding '.' and '..').
        filenames is a list of the names of the non-directory files in dirpath.
        Note that the names in the lists are just names, with no path components.
        To get a full path (which begins with top) to a file or directory in
        dirpath, do os.path.join(dirpath, name).
    

    后面3个自定义选项暂时可以不考虑(详细可以参考help(os.walk)),top即顶层目录,walk返回一个生成器,迭代每个生成器会返回一个三元组(dirpath, dirnames, filenames),依次代表目录名,该目录下的目录类型文件列表(不包括.和..),该目录下的非目录类型文件列表。

    >>> import os
    >>> for parent, dirnames, filenames in os.walk('./cpp'):
    ...     for dirname in dirnames:
    ...             print('[DIR]', dirname)
    ...     for filename in filenames:
    ...             print('[FILE]', filename)
    ...     break
    ... 
    [DIR] string
    [DIR] lists
    [DIR] bitree
    [DIR] reference
    [DIR] threads
    [FILE] test.cc
    [FILE] binary_tree.c
    [FILE] shared_ptr.cc
    [FILE] get_arraysize.cc
    [FILE] subset_all.cc
    [FILE] bind_demo.cc
    [FILE] a.out
    [FILE] binary_tree.cpp
    

    上述代码即遍历当前目录的所有文件并打印文件名,若去掉break则可以深层次遍历所有子目录。
    至于后续操作则借用下列方法即可

    • os.listdir(path=None)
      获取目录下所有文件名,若未指定path则默认路径为当前目录。类似Linux下的ls命令
    • os.path.join(a, *p)
      用'/'或者其他连接符(比如windows下为'\')将路径列表连接起来
    • os.path.isdir(s)
      s为完整路径,若s为目录类型则返回True
    • os.path.splitext(p)
      p为文件路径(不一定是完整路径),返回二元组(root, ext),ext即后缀

    函数式编程实现

    最近刚接触了下python对函数式编程的支持,代码确实优雅不少,对性能没有严格要求的情景下这种风格的代码看起来非常舒服。

    def subdir_list(dirname):
        """获取目录下所有子目录名
        @param dirname: str 目录的完整路径
        @return: list(str) 所有子目录完整路径组成的列表
        """
        return list(filter(os.path.isdir,
            map(lambda filename: os.path.join(dirname, filename),
                os.listdir(dirname))))
    
    def file_list(dirname, ext='.csv'):
        """获取目录下所有特定后缀的文件
        @param dirname: str 目录的完整路径
        @param ext: str 后缀名, 以点号开头
        @return: list(str) 所有子文件名(不包含路径)组成的列表
        """
        return list(filter(
            lambda filename: os.path.splitext(filename)[1] == ext,
            os.listdir(dirname)))
    

    话说这种)))))...风格的代码自从N年前学autolisp时才写过,不知道缩进风格对不对,先这样吧。

    相关文章

      网友评论

          本文标题:python遍历目录获取子目录名/特定后缀文件

          本文链接:https://www.haomeiwen.com/subject/aynnzxtx.html