美文网首页编程基础知识iOS学习小知识点
彻底删除git中没用的大文件

彻底删除git中没用的大文件

作者: Phelthas | 来源:发表于2017-03-10 22:33 被阅读1051次

最近碰到个很难办的问题,无意中发现项目文件夹已经快1G了。。。
仔细一看,原来是.git文件夹占了80%。。。
思前想后也找不到原因,最后还是google了半天才找到问题:
之前为了方便把一个200M左右的sdk直接添加到了项目里,然后提交到git上了,更可怕的是sdk还换了好几个版本提交了好多次。。。
所以git中就有N多这个sdk修改的记录,占了很大空间;
为什么会出现这种情况呢,就是因为git的存储方式

git仓库下有一个名为 .git 的隐藏文件夹 ,从git初始化(git init)开始,所有仓库的变化都会记录在这个.git文件夹中;只要是git记录的文件(add 并且 commit),就会通过一定的算法保存到这里,
删除一个文件,只是记录了删除这个操作,但并不会把文件从.git文件夹删除。
所以直接删除项目中的文件,.git文件夹完全不会变小(理论上还会变大一点,因为多记录了一次删除操作。。。)
要想彻底删除git已经记录的文件,就必须用到一个高端命令:git filter-branch

官方解释可以看这里:

https://git-scm.com/docs/git-filter-branch

https://git-scm.com/book/en/v2/Git-Tools-Rewriting-History

具体怎么使用可以参考这两篇博客:

http://harttle.com/2016/03/22/purge-large-files-in-gitrepo.html

http://blog.csdn.net/lwfcgz/article/details/49453375

具体到我这儿,因为我添加了 XXX.framework的库,所以命令就是:

git filter-branch --force --prune-empty --index-filter 'git rm -rf --cached --ignore-unmatch XXX.framework' --tag-name-filter cat -- --all

各个参数的意思摘抄如下
filter-branch 是让git重写每一个分支,

--force 假如遇到冲突也让git强制执行,

--index-filter 选项指定重写的时候应该执行什么命令,要执行的命令紧跟在它的后面,在这里就是git rm --cached --ignore-unmatch password.txt ,让git删除掉缓存的文件,如果有匹配的话。

--prune-empty 选项告诉git,如果因为重写导致某些commit变成了空(比如修改的文件全部被删除),那么忽略掉这个commit。

--tag-name-filter 表示对每一个tag如何重命名,重命名的命令紧跟在后面,当前的tag名会从标注输入送给后面的命令,用cat就表示保持tag名不变。

紧跟着的-- 表示分割符,

最后的--all 表示对所有的文件都考虑在内。

等命令执行完了,要提交到远程再

git push --force --all

就可以了

在实际操作中,我还遇到点其他问题,一并记录下来~

  1. 因为XXX.framework其实是个文件夹,所以在 rm 命令之后必须 加上 -rf 参数,不然其实会漏删不少东西
  2. 命令里面的 --all 似乎不怎么管用,至少对分支是不管用的,(博客1里面说是对所有分支。。。貌似有点问题)
    一开始我项目有好几个分支,我直接在master上操作,完了之后push,结果.git文件夹确实有变小,但变小的很有限。。。
    后来我把其他的分支备份出来,然后删掉项目里的所有分支,只剩下master,再来了一遍,果然就可以了,远程仓库果然变小了超级多
    本地的.git文件夹依然没啥变化,这是因为有很多本地缓存,重新git clone远程就好了
  3. git push --force --all其实也是个很危险的操作 ,再执行这个之前,务必确保当前代码已经是最新,并且你开始操作后没有人提交过代码,
    不然这么一force,有一大片冲突是必然的。。。不说了,说多了都是泪。。。

教训:

sdk之类的大文件,尽量不要直接添加到git中,如果sdk不经常更新且不太大(多大算大多大算小看各自网速了),那直接添加进去问题也不大;
如果sdk比较大或者经常更新,那就真的注意不能玩git里面加了,目前想到的比较好的替代方案有:

  1. 把sdk写到.gitignore中,在readme等地方写清楚,项目用到了什么sdk,让用的人自己去下载;
    这个方法比较容易实现,不过对用的人来说不太友好。毕竟除了直接复制粘贴,直接git clone的代码是不能直接用的。。。

  2. 用pod来管理
    一般来说pods是不会放到git里面的,都是用的时候再pod install;所以可以给项目用到的sdk之类的大文件,专门建一个pod库,让项目通过pod依赖这些大文件。
    这也是我现在用的方案,效果还是很不错的~
    再加上pod还可以配置一些依赖库(方法可以参考https://github.com/Phelthas/LXMThirdLoginManager ,关键是.podspec文件),那就更加方便了!强烈推荐!!!

有什么问题,欢迎讨论~

相关文章

  • 彻底删除git中没用的大文件

    最近碰到个很难办的问题,无意中发现项目文件夹已经快1G了。。。仔细一看,原来是.git文件夹占了80%。。。思前想...

  • 彻底删除git中的大文件

    git 如果提交一个文件,然后删除他,继续提交,那么这个文件是存在 git 中,需要使用特殊的命令才可以删除。 原...

  • git彻底删除大文件

    以下操作很危险,操作前请确定你清楚你在执行什么操作,请做好必要的备份 ?拉取分支代码 git clone 你的远程...

  • # Git 大文件清理

    查找大文件 结果 第一行是文件id 第二行是文件路径 删除大文件 在Git仓库彻底删除一个文件只有一种办法:重写(...

  • 记一次删除Git记录中的大文件的过程

    记一次删除Git记录中的大文件的过程

  • 清理.git文件

    查找.git中的大文件 cd 到工程文件 查找十个大文件并降序排序 命令执行结果如下图: 删除文件 如果删除命令执...

  • git仓库过大,减少仓库体积,永久删除git库的物理文件

    查看存储库中的大文件 或 永久删除git库的物理文件 如果在 git filter-branch 操作过程中遇到如...

  • 给 git 瘦身

    http://blog.mallol.cn/如何给git仓库瘦身删除大文件.html

  • git 删除大文件

    做法 0、确保本地仓库是最新版本。 1、在项目根目录下运行 上面的命令执行后出现如下信息: 2. 根据最大文件的路...

  • git 删除大文件

    当进行项目开发时,尤其是一些机器学习的项目,由于前期没有配置.gitignore,导致会把一些数据集上传到git上...

网友评论

    本文标题: 彻底删除git中没用的大文件

    本文链接:https://www.haomeiwen.com/subject/vcgogttx.html