美文网首页
git内部原理读书笔记

git内部原理读书笔记

作者: 夜里遛狗 | 来源:发表于2017-08-21 14:27 被阅读0次

    首先要弄明白一点,从根本上来讲 Git 是一个内容寻址(content-addressable)文件系统,并在此之上提供了一个版本控制系统的用户界面。

    1.低层命令(plumbing)和高层命令(porcelain)

    高层命令:对用户友好的一些命令包括我们常见的:push pull checkout branch等30多个 
    参见:https://git-scm.com/book/zh/v2/Appendix-C%3A-Git-%E5%91%BD%E4%BB%A4-%E8%AE%BE%E7%BD%AE%E4%B8%8E%E9%85%8D%E7%BD%AE 附录3
    
    低层命令: cat-file ls-remote等命令
    

    2.分析git目录

    首先初始化一个git文件 然后打开.git文件

    hooks          
    logs           
    config         
    objects        
    ORIG_HEAD
    description    
    info           
    refs           
    HEAD           
    FETCH_HEAD
    packed-refs    
    gc.log         
    COMMIT_EDITMSG 
    index
    

    可以看到有这么多文件或文件夹
    其中
    description 文件仅供 GitWeb 程序使用,我们无需关心
    config 文件包含项目特有的配置选项。
    info 目录包含一个全局性排除(global exclude)文件,用以放置那些不希望被记录在 .gitignore 文件中的忽略模式(ignored patterns)
    hooks 目录包含客户端或服务端的钩子脚本(hook scripts)

    HEAD 文件  
    (尚待创建的)index 文件  
    objects 目录  
    refs 目录
    

    这4个目录是最重要的是git的核心部分

    • objects 存放所有的数据内容
    • refs 目录存储指向数据(分支)的提交对象的指针;
    • HEAD 文件指示目前被检出的分支;
    • index 文件保存暂存区信息。

    3.git对象

    Git 是一个内容寻址文件系统.这意味着,Git 的核心部分是一个简单的键值对数据库(key-value data store)。 你可以向该数据库插入任意类型的内容,它会返回一个键值,通过该键值可以在任意时刻再次检索(retrieve)该内容。

    我们打开一个使用过git的.git/objects目录
    可以看到很多文件夹
    每个文件夹中都有一个文件
    比较特殊的有2个文件:info, pack 这两个文件后续会解释

    首先我们查看git是如何存储文件的

    使用git hash-object -w --stdin
    w表示存储 不添加则仅生成
    stdin如果不添加则需要在命令后接入要处理的内容
    命令输出一个长度为 40 个字符的校验和。 
    这是一个 SHA-1 哈希值——一个将待存储的数据外加一个头部信息(header)一起做 SHA-1 校验运算而得的校验和。
    校验和的前两个字符用于命名子目录,余下的 38 个字符则用作文件名。
    

    现在我们知道可以用hash-object存储

    然后通过cat-file命令我们可以解析git 取回数据

    cat-file是一个非常重要的命令

    cat-file链接

    -p 可以将git内容解析 为我们展示友好的输出
    -t 可以让 Git 告诉我们其内部存储的任何对象类型,只要给定该对象的 SHA-1 值
    

    git 树对象

    它能解决文件名保存的问题,也允许我们将多个文件组织到一起。 Git 以一种类似于 UNIX 文件系统的方式存储内容,但作了些许简化。 所有内容均以树对象和数据对象的形式存储,其中树对象对应了 UNIX 中的目录项,数据对象则大致上对应了 inodes 或文件内容。 一个树对象包含了一条或多条树对象记录(tree entry),每条记录含有一个指向数据对象或者子树对象的 SHA-1 指针,以及相应的模式、类型、文件名信息。

    例如我们分析下.git目录

    git cat-file -p master^{tree} // 将当前的master以树对象输出
    100644 blob eccc066d0fee656b1cd5b0a0918acc12a04e54ed    README.md
    040000 tree d8286c0bdd97ecf334347e556082e410ee6d8a16    data
    

    树对象指向了一个readme和另一个树对象

    graph TD
    master-->|tree|data
    master-->|blob|README
    

    我们继续看

    git cat-file -p d8286c0bdd97ecf334347e556082e410ee6d8a16
    100644 blob 682b2728d73775036b0624f8d2d2422e14cd71de    secret
    

    这样就拿到了data里面存储的git对象

    graph TD
    master-->|tree|data
    master-->|blob|README
    data-->|blob|secret
    
    *这里我们看到了一些100644等数字,这个是文件类型*
    下面是git数据对象的类型
    100644:表明这是一个普通文件
    100755:表示一个可执行文件
    120000:表示一个符号链接
    以及我们见到过的
    040000: tree类型
    

    下面我们生成一个树对象
    通常git根据某一时刻的暂存区生成树对象
    首先生成暂存区并把文件加入

    git update-index --add --cacheinfo 100644 <SHA1> text1
    通过这个命令我们吧一个名为text1的普通文件加入了暂存区
    --add是因为我们之前没有创建过暂存区
    --cacheinfo 命令因为将要添加的文件位于 Git 数据库中,而不是位于当前目录下
    

    现在可以通过write-tree命令将暂存区文件生成一个树对象

    提交对象

    如果有多个树对象,分别代表了我们想要跟踪的不同项目快照。若想重用这些快照,你必须记住所有三个 SHA-1 哈希值。 并且,你也完全不知道是谁保存了这些快照,在什么时刻保存的,以及为什么保存这些快照。 而以上这些,正是提交对象(commit object)能为你保存的基本信息。

    通过调用 commit-tree 命令创建一个提交对象,为此需要指定一个树对象的 SHA-1 值,以及该提交的父提交对象

    $ echo 'first commit' | git commit-tree d8329f
    fdf4fc3344e67ab068f836878b6c4951e3b15f3d
    
    查看文件
    $ git cat-file -p fdf4fc3
    tree d8329fc1cc938780ffdd9f94e0d364e0ea74f579
    author Scott Chacon <schacon@gmail.com> 1243040974 -0700
    committer Scott Chacon <schacon@gmail.com> 1243040974 -0700
    
    first commit
    

    提交对象的格式很简单:它先指定一个顶层树对象,代表当前项目快照;然后是作者/提交者信息(依据你的 user.name 和 user.email 配置来设定,外加一个时间戳);留空一行,最后是提交注释。

    我们生成了第一个提交 fdf4fc3344e67ab068f836878b6c4951e3b15f3d
    接着使用commit-tree 对象提交新的对象并将第一个提交作为父对象

    echo 'second commit' | git commit-tree 0155eb -p fdf4fc3
    
    例如0155eb 是新的暂存区引用 fdf4fc3是父提交 
    

    这个时候我们使用git log的话就可以看到真正的提交记录了
    这个就是每次我们使用git add 和 git commit时git为我们做的事情

    Git 所做的实质工作——将被改写的文件保存为数据对象,更新暂存区,记录树对象,最后创建一个指明了顶层树对象和父提交的提交对象。 这三种主要的 Git 对象——数据对象、树对象、提交对象——最初均以单独文件的形式保存在 .git/objects 目录下

    git 如何存储对象

    前面提到git生成SHA-1后会将前2位作为文件夹名后38位为文件名存储。
    git通过zlib压缩文件并存储

    4.git 引用

    我们可以借助git log等命令来浏览完整的提交历史,但为了能遍历那段历史从而找到所有相关对象,你仍须记住 某个SHA-1 是最后一个提交。 我们需要一个文件来保存 SHA-1 值,并给文件起一个简单的名字,然后用这个名字指针来替代原始的 SHA-1 值。

    git中这样的文件称为引用(references)存放在refs目录下

    我们可以通过update-ref来创建引用

    git update-ref refs/heads/master 1a410efbd13591db07496601ebc7a059dd55cfe9
    这个命令就是创建一个master的引用对象 指向1a这个提交对象
    

    同时我们也可以创建别的引用对象

    git update-ref refs/heads/xunlu 1a410efbd13591db07496601ebc7a059dd55cfe9
    
    这个命令就相当于在1a这个提交对象下git branch xunlu
    

    那么git 如何知道当前的分支呢
    答案是HEAD文件
    HEAD文件是一个符号引用指向目前所在的分支, 所谓符号引用,意味着它并不像普通引用那样包含一个 SHA-1 值——它是一个指向其他引用的指针

    cat .git/HEAD
    ref: refs/heads/master
    

    当我们执行git commit时,git会创建一个提交对象,并用 HEAD 文件中那个引用所指向的 SHA-1 值设置其父提交字段。

    你可以通过symbolic-ref命令来查看或者修改HEAD文件

     git symbolic-ref HEAD refs/heads/test
     将HEAD指向test分支
    

    还有标签引用和远程引用
    标签引用就是创建了一个永远指向一个固定的提交对象的引用,相当于起了别名
    远程引用:如果你添加了一个远程版本库并对其执行过推送操作,Git 会记录下最近一次推送操作时每一个分支所对应的值,并保存在 refs/remotes 目录下

    5.包文件

    git 使用zlib压缩文件
    当你对同一个很大的文件修改哪怕一行以后你会发现 git 会使用全新的文件存储这个修改了的文件 放在了object中,这就造成了极大的浪费 这两个文件几乎相同。

    如果存放一个文件放他们相同的部分岂不是更好。

    Git 最初向磁盘中存储对象时所使用的格式被称为“松散(loose)”对象格式。 但是,Git 会时不时地将多个这些对象打包成一个称为“包文件(packfile)”的二进制文件,以节省空间和提高效率。 当版本库中有太多的松散对象,或者你手动执行 git gc 命令,或者你向远程服务器执行推送时,Git 都会这样做。

    通过 git gc命令 git生成了pack/ 文件和索引文件

    可以使用 git verify-pac 命令查看已打包的内容

    相关文章

      网友评论

          本文标题:git内部原理读书笔记

          本文链接:https://www.haomeiwen.com/subject/rewcdxtx.html