美文网首页
git内部原理读书笔记

git内部原理读书笔记

作者: 夜里遛狗 | 来源:发表于2017-08-21 14:27 被阅读0次

首先要弄明白一点,从根本上来讲 Git 是一个内容寻址(content-addressable)文件系统,并在此之上提供了一个版本控制系统的用户界面。

1.低层命令(plumbing)和高层命令(porcelain)

高层命令:对用户友好的一些命令包括我们常见的:push pull checkout branch等30多个 
参见:https://git-scm.com/book/zh/v2/Appendix-C%3A-Git-%E5%91%BD%E4%BB%A4-%E8%AE%BE%E7%BD%AE%E4%B8%8E%E9%85%8D%E7%BD%AE 附录3

低层命令: cat-file ls-remote等命令

2.分析git目录

首先初始化一个git文件 然后打开.git文件

hooks          
logs           
config         
objects        
ORIG_HEAD
description    
info           
refs           
HEAD           
FETCH_HEAD
packed-refs    
gc.log         
COMMIT_EDITMSG 
index

可以看到有这么多文件或文件夹
其中
description 文件仅供 GitWeb 程序使用,我们无需关心
config 文件包含项目特有的配置选项。
info 目录包含一个全局性排除(global exclude)文件,用以放置那些不希望被记录在 .gitignore 文件中的忽略模式(ignored patterns)
hooks 目录包含客户端或服务端的钩子脚本(hook scripts)

HEAD 文件  
(尚待创建的)index 文件  
objects 目录  
refs 目录

这4个目录是最重要的是git的核心部分

  • objects 存放所有的数据内容
  • refs 目录存储指向数据(分支)的提交对象的指针;
  • HEAD 文件指示目前被检出的分支;
  • index 文件保存暂存区信息。

3.git对象

Git 是一个内容寻址文件系统.这意味着,Git 的核心部分是一个简单的键值对数据库(key-value data store)。 你可以向该数据库插入任意类型的内容,它会返回一个键值,通过该键值可以在任意时刻再次检索(retrieve)该内容。

我们打开一个使用过git的.git/objects目录
可以看到很多文件夹
每个文件夹中都有一个文件
比较特殊的有2个文件:info, pack 这两个文件后续会解释

首先我们查看git是如何存储文件的

使用git hash-object -w --stdin
w表示存储 不添加则仅生成
stdin如果不添加则需要在命令后接入要处理的内容
命令输出一个长度为 40 个字符的校验和。 
这是一个 SHA-1 哈希值——一个将待存储的数据外加一个头部信息(header)一起做 SHA-1 校验运算而得的校验和。
校验和的前两个字符用于命名子目录,余下的 38 个字符则用作文件名。

现在我们知道可以用hash-object存储

然后通过cat-file命令我们可以解析git 取回数据

cat-file是一个非常重要的命令

cat-file链接

-p 可以将git内容解析 为我们展示友好的输出
-t 可以让 Git 告诉我们其内部存储的任何对象类型,只要给定该对象的 SHA-1 值

git 树对象

它能解决文件名保存的问题,也允许我们将多个文件组织到一起。 Git 以一种类似于 UNIX 文件系统的方式存储内容,但作了些许简化。 所有内容均以树对象和数据对象的形式存储,其中树对象对应了 UNIX 中的目录项,数据对象则大致上对应了 inodes 或文件内容。 一个树对象包含了一条或多条树对象记录(tree entry),每条记录含有一个指向数据对象或者子树对象的 SHA-1 指针,以及相应的模式、类型、文件名信息。

例如我们分析下.git目录

git cat-file -p master^{tree} // 将当前的master以树对象输出
100644 blob eccc066d0fee656b1cd5b0a0918acc12a04e54ed    README.md
040000 tree d8286c0bdd97ecf334347e556082e410ee6d8a16    data

树对象指向了一个readme和另一个树对象

graph TD
master-->|tree|data
master-->|blob|README

我们继续看

git cat-file -p d8286c0bdd97ecf334347e556082e410ee6d8a16
100644 blob 682b2728d73775036b0624f8d2d2422e14cd71de    secret

这样就拿到了data里面存储的git对象

graph TD
master-->|tree|data
master-->|blob|README
data-->|blob|secret
*这里我们看到了一些100644等数字,这个是文件类型*
下面是git数据对象的类型
100644:表明这是一个普通文件
100755:表示一个可执行文件
120000:表示一个符号链接
以及我们见到过的
040000: tree类型

下面我们生成一个树对象
通常git根据某一时刻的暂存区生成树对象
首先生成暂存区并把文件加入

git update-index --add --cacheinfo 100644 <SHA1> text1
通过这个命令我们吧一个名为text1的普通文件加入了暂存区
--add是因为我们之前没有创建过暂存区
--cacheinfo 命令因为将要添加的文件位于 Git 数据库中,而不是位于当前目录下

现在可以通过write-tree命令将暂存区文件生成一个树对象

提交对象

如果有多个树对象,分别代表了我们想要跟踪的不同项目快照。若想重用这些快照,你必须记住所有三个 SHA-1 哈希值。 并且,你也完全不知道是谁保存了这些快照,在什么时刻保存的,以及为什么保存这些快照。 而以上这些,正是提交对象(commit object)能为你保存的基本信息。

通过调用 commit-tree 命令创建一个提交对象,为此需要指定一个树对象的 SHA-1 值,以及该提交的父提交对象

$ echo 'first commit' | git commit-tree d8329f
fdf4fc3344e67ab068f836878b6c4951e3b15f3d

查看文件
$ git cat-file -p fdf4fc3
tree d8329fc1cc938780ffdd9f94e0d364e0ea74f579
author Scott Chacon <schacon@gmail.com> 1243040974 -0700
committer Scott Chacon <schacon@gmail.com> 1243040974 -0700

first commit

提交对象的格式很简单:它先指定一个顶层树对象,代表当前项目快照;然后是作者/提交者信息(依据你的 user.name 和 user.email 配置来设定,外加一个时间戳);留空一行,最后是提交注释。

我们生成了第一个提交 fdf4fc3344e67ab068f836878b6c4951e3b15f3d
接着使用commit-tree 对象提交新的对象并将第一个提交作为父对象

echo 'second commit' | git commit-tree 0155eb -p fdf4fc3

例如0155eb 是新的暂存区引用 fdf4fc3是父提交 

这个时候我们使用git log的话就可以看到真正的提交记录了
这个就是每次我们使用git add 和 git commit时git为我们做的事情

Git 所做的实质工作——将被改写的文件保存为数据对象,更新暂存区,记录树对象,最后创建一个指明了顶层树对象和父提交的提交对象。 这三种主要的 Git 对象——数据对象、树对象、提交对象——最初均以单独文件的形式保存在 .git/objects 目录下

git 如何存储对象

前面提到git生成SHA-1后会将前2位作为文件夹名后38位为文件名存储。
git通过zlib压缩文件并存储

4.git 引用

我们可以借助git log等命令来浏览完整的提交历史,但为了能遍历那段历史从而找到所有相关对象,你仍须记住 某个SHA-1 是最后一个提交。 我们需要一个文件来保存 SHA-1 值,并给文件起一个简单的名字,然后用这个名字指针来替代原始的 SHA-1 值。

git中这样的文件称为引用(references)存放在refs目录下

我们可以通过update-ref来创建引用

git update-ref refs/heads/master 1a410efbd13591db07496601ebc7a059dd55cfe9
这个命令就是创建一个master的引用对象 指向1a这个提交对象

同时我们也可以创建别的引用对象

git update-ref refs/heads/xunlu 1a410efbd13591db07496601ebc7a059dd55cfe9

这个命令就相当于在1a这个提交对象下git branch xunlu

那么git 如何知道当前的分支呢
答案是HEAD文件
HEAD文件是一个符号引用指向目前所在的分支, 所谓符号引用,意味着它并不像普通引用那样包含一个 SHA-1 值——它是一个指向其他引用的指针

cat .git/HEAD
ref: refs/heads/master

当我们执行git commit时,git会创建一个提交对象,并用 HEAD 文件中那个引用所指向的 SHA-1 值设置其父提交字段。

你可以通过symbolic-ref命令来查看或者修改HEAD文件

 git symbolic-ref HEAD refs/heads/test
 将HEAD指向test分支

还有标签引用和远程引用
标签引用就是创建了一个永远指向一个固定的提交对象的引用,相当于起了别名
远程引用:如果你添加了一个远程版本库并对其执行过推送操作,Git 会记录下最近一次推送操作时每一个分支所对应的值,并保存在 refs/remotes 目录下

5.包文件

git 使用zlib压缩文件
当你对同一个很大的文件修改哪怕一行以后你会发现 git 会使用全新的文件存储这个修改了的文件 放在了object中,这就造成了极大的浪费 这两个文件几乎相同。

如果存放一个文件放他们相同的部分岂不是更好。

Git 最初向磁盘中存储对象时所使用的格式被称为“松散(loose)”对象格式。 但是,Git 会时不时地将多个这些对象打包成一个称为“包文件(packfile)”的二进制文件,以节省空间和提高效率。 当版本库中有太多的松散对象,或者你手动执行 git gc 命令,或者你向远程服务器执行推送时,Git 都会这样做。

通过 git gc命令 git生成了pack/ 文件和索引文件

可以使用 git verify-pac 命令查看已打包的内容

相关文章

  • git理解

    内部原理实例git命令 内部原理 当git init 时,Git 会创建一个 .git 目录。 这个目录包含了几乎...

  • Git 内部原理

    Git 内部原理

  • git内部原理读书笔记

    首先要弄明白一点,从根本上来讲 Git 是一个内容寻址(content-addressable)文件系统,并在此之...

  • Git内部原理

    Git是一个快速,可扩展的分布式版本控制系统。从根本上来说,Git是一个内容寻址(content-addressa...

  • Git 学习笔记(CheatSheet)(二)

    Git 内部实现原理剖析[https://www.jianshu.com/p/8154ac47d406] Git ...

  • 二、Git内部原理

    1 前言 Git使用比较灵活,达到相同结果有多种方式。 靠记忆不同场景下的命令组合,会停留在“知其然,不知其所以然...

  • Git内部原理 - 1

    Git 内部 Git是什么呢?不言而喻,官方回答git是分布式软件管理系统, 如果我们往从计算机学科这些想想,我觉...

  • Git版本控制学习笔记(一)

    参考文章:1、Git内部原理http://blog.jobbole.com/26209/2、廖雪峰Git教程htt...

  • Git 内部原理之 Git 引用

    这篇文章本应该在6月份就完成,拖了4个月之后,终于鼓起勇气捡起来,实在惭愧。坚持写文章就像长跑,途中跑起来基本是靠...

  • 10.2 Git 内部原理 - 《Git 对象》

    Git 的核心部分是一个简单的键值对数据库(key-value data store)。 你可以向 Git 仓库中...

网友评论

      本文标题:git内部原理读书笔记

      本文链接:https://www.haomeiwen.com/subject/rewcdxtx.html