美文网首页
Git 仓库瘦身方法

Git 仓库瘦身方法

作者: 浮萍向北 | 来源:发表于2021-08-02 01:03 被阅读0次

    仓库瘦身方法

    问题

    • 为什么瘦身?
      • 由于每个人都必须下载文件,因此获取代码库的速度变慢。
      • 它们占用服务器上的大量存储空间。
      • 会达到Git仓库的存储限制。
      • 个人电脑硬盘空间有限,仓库较多时,占用了大量存储空间。
    • 为什么二进制大文件是个问题?
      • 在 git 中,所有和你共用一个库的人,当他们把库下载下来时,他们会得到你这个项目的完整历史记录。一般情况下这没什么问题——真正的代码只占很少体积,但拥有完整的历史记录使你能够实施分布式的合作、快速得到 diff 结果以及更多的便利——但项目的历史记录会慢慢膨胀。如果你提交了大文件——比如 100MB 以上——你仓库的体积会飞速增长,并且当其他人 clone 这个仓库的时候,他们要下载的数据就更多了。最终你会意识到你犯了一个错误,但是就算你决定要通过一个 commit 来删除这些文件,它们其实还在那儿,在你的历史数据中,下载整个仓库所花的时间不会有任何变化

    方案

    • Git 命令
    • BFG Repo-Cleaner
      • git-filter-branch 的替代品 用 Scala 写 BFG Repo-Cleaner ,Scala 很适合去处理 git 的不可变数据结构,并且能利用并行开发的优势。
      • 速度更快
        • 在 git 中,所有文件和文件夹的数据都只存储一次,并且每个都会有一个独一无二的 id——git-id。如果大量的 commit 都没有修改某个文件,那么这个文件只会被保存一次。如果这个文件有两个版本,并且需要在两个版本间来回切换,这个文件只会存储两次,每个版本各一次。所以,如果一个文件只存储一次,因为它出现在 100 个 commit 中,就要对它清理 100 次,这肯定是不现实的。BFG 只对 git 库中的每个对象清理一次,然后记住它的 git-id,以后遇到它,不把它计算在内就行了。我们对功能做了限制——git-filter-branch 能让你做任何事,而 BFG 不行——以此换来性能上的巨大改进。
          速度的提升还受益于没有进程间的切换(JVM 会搞定一切,不需要在 C 代码和 bash 代码间来回切),以及能充分利用你的多核电脑。我很高兴看到 BFG 会使你所有的处理器核发烫,每个核都在尽其所能地删除文件和目录——但是很不幸 git-filter-branch 只能串行处理工作,一个接一个地处理 commit——前一个处理完之前,无法开始下一个。BFG 的速度明显是一大优势。

    实现(选择BFG Repo-Cleane 操作简单 速度更快)

    • BFG Repo-Cleaner (https://rtyley.github.io/bfg-repo-cleaner/
      1. 首先删除不想要文件 并提交
        rm file-to-delete
        git commit -m "删除大文件"
        git push"
      2. 下载官网的程序包。例如我这里下载的为bfg-1.14.0.jar,之后将程序包放到一个项目文件夹里,重命名为bfg.jar 。这是一个Java程序,使用的话需要安装Java运行环境(https://www.java.com/en/download/manual.jsp)。
      3. clone自己的git repo,使用--mirror参数。
        git clone --mirror git@github.com:12134/XXXX.git
      4. 清除大文件、文件夹和检索大文件 命令
        java -jar bfg.jar --delete-files 123.png XXXX.git (删除文件)
        java -jar bfg.jar --delete-folders Pods XXXX.git (删除文件夹)
        java -jar bfg.jar --strip-blobs-bigger-than 100M XXXX.git(大于100M文件)
      5. 执行完 有一个问题,这种情况bfg会保护当前版本(HEAD所指的版本),不去清理。提示如下。
        These are your protected commits, and so their contents will NOT be altered: commit ******* (protected by 'HEAD')
        如果说当前版本已经没有问题,那么这么使用没有问题。
        但是我的当前版本也是有需要删除的文件的,在谷歌搜索了一下,找到了解决方法。
        在命令行下加入--no-blob-protection命令,可以解除保护。使用的命令如下。
        java -jar bfg.jar --delete-files 123.png XXXX.git --no-blob-protection
        java -jar bfg.jar --delete-folders Pods XXXX.git --no-blob-protection
    1. 在完成上面的指令后,实际上这些数据/文件并没有被直接删除,这时候需要使用git gc指令来清除。
      cd XXXX.git
      git reflog expire --expire=now --all && git gc --prune=now --aggressive
    2. 最后,更新完本地仓库后,将数据推送到GitHub远程仓库。按照官网描述,由于之前使用了--mirror参数,推送时会推送所有内容。(push完成之后放弃旧存储库副本重新clone)
      git push

    实现结果

    需要测试请上码云建仓库测试
    GitHub会报下面的错
    [remote rejected] refs/pull/1/head -> refs/pull/1/head (deny updating a hidden ref)
    问题详情(https://stackoverflow.com/questions/34265266/remote-rejected-errors-after-mirroring-a-git-repository
    GitHub所有已清除的拉请求历史记录都没有被清除。如果希望你的拉请求,以及它们引用的所有提交/历史记录都删除,那么在GitHub上的总回购大小可以缩小(除了已经缩小的默认克隆的大小之外),需要联系GitHub支持

    WechatIMG219.png WechatIMG221.png WechatIMG222.png

    相关文章

      网友评论

          本文标题:Git 仓库瘦身方法

          本文链接:https://www.haomeiwen.com/subject/oikdvltx.html