美文网首页
Git 仓库瘦身方法

Git 仓库瘦身方法

作者: 浮萍向北 | 来源:发表于2021-08-02 01:03 被阅读0次

仓库瘦身方法

问题

  • 为什么瘦身?
    • 由于每个人都必须下载文件,因此获取代码库的速度变慢。
    • 它们占用服务器上的大量存储空间。
    • 会达到Git仓库的存储限制。
    • 个人电脑硬盘空间有限,仓库较多时,占用了大量存储空间。
  • 为什么二进制大文件是个问题?
    • 在 git 中,所有和你共用一个库的人,当他们把库下载下来时,他们会得到你这个项目的完整历史记录。一般情况下这没什么问题——真正的代码只占很少体积,但拥有完整的历史记录使你能够实施分布式的合作、快速得到 diff 结果以及更多的便利——但项目的历史记录会慢慢膨胀。如果你提交了大文件——比如 100MB 以上——你仓库的体积会飞速增长,并且当其他人 clone 这个仓库的时候,他们要下载的数据就更多了。最终你会意识到你犯了一个错误,但是就算你决定要通过一个 commit 来删除这些文件,它们其实还在那儿,在你的历史数据中,下载整个仓库所花的时间不会有任何变化

方案

  • Git 命令
  • BFG Repo-Cleaner
    • git-filter-branch 的替代品 用 Scala 写 BFG Repo-Cleaner ,Scala 很适合去处理 git 的不可变数据结构,并且能利用并行开发的优势。
    • 速度更快
      • 在 git 中,所有文件和文件夹的数据都只存储一次,并且每个都会有一个独一无二的 id——git-id。如果大量的 commit 都没有修改某个文件,那么这个文件只会被保存一次。如果这个文件有两个版本,并且需要在两个版本间来回切换,这个文件只会存储两次,每个版本各一次。所以,如果一个文件只存储一次,因为它出现在 100 个 commit 中,就要对它清理 100 次,这肯定是不现实的。BFG 只对 git 库中的每个对象清理一次,然后记住它的 git-id,以后遇到它,不把它计算在内就行了。我们对功能做了限制——git-filter-branch 能让你做任何事,而 BFG 不行——以此换来性能上的巨大改进。
        速度的提升还受益于没有进程间的切换(JVM 会搞定一切,不需要在 C 代码和 bash 代码间来回切),以及能充分利用你的多核电脑。我很高兴看到 BFG 会使你所有的处理器核发烫,每个核都在尽其所能地删除文件和目录——但是很不幸 git-filter-branch 只能串行处理工作,一个接一个地处理 commit——前一个处理完之前,无法开始下一个。BFG 的速度明显是一大优势。

实现(选择BFG Repo-Cleane 操作简单 速度更快)

  • BFG Repo-Cleaner (https://rtyley.github.io/bfg-repo-cleaner/
    1. 首先删除不想要文件 并提交
      rm file-to-delete
      git commit -m "删除大文件"
      git push"
    2. 下载官网的程序包。例如我这里下载的为bfg-1.14.0.jar,之后将程序包放到一个项目文件夹里,重命名为bfg.jar 。这是一个Java程序,使用的话需要安装Java运行环境(https://www.java.com/en/download/manual.jsp)。
    3. clone自己的git repo,使用--mirror参数。
      git clone --mirror git@github.com:12134/XXXX.git
    4. 清除大文件、文件夹和检索大文件 命令
      java -jar bfg.jar --delete-files 123.png XXXX.git (删除文件)
      java -jar bfg.jar --delete-folders Pods XXXX.git (删除文件夹)
      java -jar bfg.jar --strip-blobs-bigger-than 100M XXXX.git(大于100M文件)
    5. 执行完 有一个问题,这种情况bfg会保护当前版本(HEAD所指的版本),不去清理。提示如下。
      These are your protected commits, and so their contents will NOT be altered: commit ******* (protected by 'HEAD')
      如果说当前版本已经没有问题,那么这么使用没有问题。
      但是我的当前版本也是有需要删除的文件的,在谷歌搜索了一下,找到了解决方法。
      在命令行下加入--no-blob-protection命令,可以解除保护。使用的命令如下。
      java -jar bfg.jar --delete-files 123.png XXXX.git --no-blob-protection
      java -jar bfg.jar --delete-folders Pods XXXX.git --no-blob-protection
  1. 在完成上面的指令后,实际上这些数据/文件并没有被直接删除,这时候需要使用git gc指令来清除。
    cd XXXX.git
    git reflog expire --expire=now --all && git gc --prune=now --aggressive
  2. 最后,更新完本地仓库后,将数据推送到GitHub远程仓库。按照官网描述,由于之前使用了--mirror参数,推送时会推送所有内容。(push完成之后放弃旧存储库副本重新clone)
    git push

实现结果

需要测试请上码云建仓库测试
GitHub会报下面的错
[remote rejected] refs/pull/1/head -> refs/pull/1/head (deny updating a hidden ref)
问题详情(https://stackoverflow.com/questions/34265266/remote-rejected-errors-after-mirroring-a-git-repository
GitHub所有已清除的拉请求历史记录都没有被清除。如果希望你的拉请求,以及它们引用的所有提交/历史记录都删除,那么在GitHub上的总回购大小可以缩小(除了已经缩小的默认克隆的大小之外),需要联系GitHub支持

WechatIMG219.png WechatIMG221.png WechatIMG222.png

相关文章

  • Git 仓库瘦身方法

    仓库瘦身方法 问题 为什么瘦身?由于每个人都必须下载文件,因此获取代码库的速度变慢。它们占用服务器上的大量存储空间...

  • Git 仓库瘦身

    原文链接(英) 步骤1:查找大文件 步骤2:删除大文件的信息 步骤3:

  • git常用命令汇总

    1.获取git仓库 方法一:在现有目录中初始化仓库。 git init方法二:克隆现有的仓库 git clone ...

  • 给 git 瘦身

    http://blog.mallol.cn/如何给git仓库瘦身删除大文件.html

  • 本地项目与git仓库之间的交互

    关键词:本地项目 git仓库 笔记方法一:git已存在仓库 克隆仓库(这是一个空仓库): git clone 空...

  • 工作中git常用命令

    本地仓库与远程仓库关联;方法一:git clone ***方法二:git initgit remote add o...

  • git瘦身

    给你的git仓库瘦身[https://www.cnblogs.com/freephp/p/6273082.html...

  • 为git仓库瘦身

    git filter-branch --tree-filter 'rm -f WebRoot/WEB-INF/li...

  • ios git常规操作

    1.git从本地文件链接到远程仓库的方法,远程仓库为空 2.git将远程仓库clone到本地的方法 clone成功...

  • 【Git】更换Git远程仓库地址

    项目组更换Git远程仓库地址,本地开发环境需要更换Git远程仓库地址,方法如下:git remote set-ur...

网友评论

      本文标题:Git 仓库瘦身方法

      本文链接:https://www.haomeiwen.com/subject/oikdvltx.html