美文网首页
数据结构与算法-树

数据结构与算法-树

作者: Joker_King | 来源:发表于2020-05-04 12:56 被阅读0次

    树的定义

    树(Tree)是n(n≥0)个结点的有限集。n=0时称为空树。在任意一棵非空树中:

    (1)有且仅有一个特定的称为根(Root)的结点;

    (2)当n>1时,其余结点可分为m(m>0)个互不相交的有限集T1、T2、……、Tm,其中每一个集合本身又是一棵树,并且称为根的子树(SubTree),如下图所示:

    image-20200503200309128

    下图的子树T1和子树T2就是根结点A的子树。当然,D、G、H、I组成的树又是B为根结点的子树,E、J组成的树是以C为根结点的子树。


    image-20200503203510056

    注意:

    1. n>0时根结点是唯一的,不可能存在多个根结点,别和现实中的大树混在一起,现实中的树有很多根须,那是真实的树,数据结构中的树是只能有一个根结点。
    2. m>0时,子树的个数没有限制,但它们一定是互不相交的。

    结点分类

    树的结点包含一个数据元素及若干指向其子树的分支。结点拥有的子树数称为结点的度(De-gree)。

    • 度为0的结点称为叶结点(Leaf)或终端结点;
    • 度不为0的结点称为非终端结点或分支结点。除根结点之外,分支结点也称为内部结点。
    • 树的度是树内各结点的度的最大值

    如下图所示,因为这棵树结点的度的最大值是结点D的度,为3,所以树的度也为3。

    image-20200503200956587

    总结

    结点分为:根节点、内部结点、叶结点,或终端结点

    结点间关系

    结点的子树的根称为该结点的孩子(Child),相应地,该结点称为孩子的双亲(Parent)。嗯,为什么不是父或母,叫双亲呢?呵呵,对于结点来说其父母同体,唯一的一个,所以只能把它称为双亲了。同一个双亲的孩子之间互称兄弟(Sibling)。结点的祖先是从根到该结点所经分支上的所有结点。所以对于H来说,D、B、A都是它的祖先。反之,以某结点为根的子树中的任一结点都称为该结点的子孙。B的子孙有D、G、H、I,如下图所示。

    image-20200503200413386

    结点的层次(Level)从根开始定义起,根为第一层,根的孩子为第二层。若某结点在第l层,则其子树就在第l+1层。其双亲在同一层的结点互为堂兄弟。显然下图中的D、E、F是堂兄弟,而G、H、I与J也是堂兄弟。树中结点的最大层次称为树的深度(Depth)或高度,当前树的深度为4。

    image-20200503203652712

    有序树和无序树

    如果将树中结点的各子树看成从左至右是有次序的,不能互换的,则称该树为有序树,否则称为无序树。

    对比线性表与树的结构,它们有很大的不同。

    image-20200503203837842

    树的抽象数据类型

    ADT 树(tree)
    Data
        树是由一个根结点和若干棵子树构成。树中结点具有相同数据类型及层次关系。
    Operation
        InitTree(*T):               构造空树T。
        DestroyTree(*T):            销毁树T。
        CreateTree(*T, definition): 按definition中给出树的定义来构造树。
        ClearTree(*T):              若树T存在,则将树T清为空树。
        TreeEmpty(T):               若T为空树,返回true,否则返回false。
        TreeDepth(T):               返回T的深度。
        Root(T):                    返回T的根结点。
        Value(T, cur_e):            cur_e是树T中一个结点,返回此结点的值。
        Assign(T, cur_e, value):    给树T的结点cur_e赋值为value。
        Parent(T, cur_e):           若cur_e是树T的非根结点,则返回它的双亲,否则返回空。
        LeftChild(T, cur_e):        若cur_e是树T的非叶结点,则返回它的最左孩子,否则返回空。
        RightSibling(T, cur_e):     若cur_e有右兄弟,否则返回空。
        InsertChild(*T, *p, i, c):  其中p指向树T的某个结点,i为所指结点p的度加上1,
                                    非空树c与T不相交,操作结果为插入c为树T中p指结点的第i棵子树。
        DeleteChild(*T, *p, i):     其中p指向树T的某个结点,i为所指结点p的度,
                                    操作结果为删除T中p所指结点的第i棵子树。
    endADT
    

    树的存储结构

    双亲表示法

    我们人可能因为种种原因,没有孩子,但无论是谁都不可能是从石头里蹦出来的,孙悟空显然不能算是人,所以是人一定会有父母。树这种结构也不例外,除了根结点外,其余每个结点,它不一定有孩子,但是一定有且仅有一个双亲。

    我们假设以一组连续空间存储树的结点,同时在每个结点中,附设一个指示器指示其双亲结点在数组中的位置。也就是说,每个结点除了知道自己是谁以外,还知道它的双亲在哪里。它的结点结构为下表所示。

    data parent

    其中data是数据域,存储结点的数据信息。而parent是指针域,存储该结点的双亲在数组中的下标。

    以下是我们的双亲表示法的结点结构定义代码。

    /* 树的双亲表示法结点结构定义 */
    #define MAX_TREE_SIZE 100
    /* 树结点的数据类型,目前暂定为整型 */
    typedef int TElemType;              
    /* 结点结构 */
    typedef struct PTNode               
    {
        /* 结点数据 */
        TElemType data;                 
        /* 双亲位置 */
        int parent;                     
    } PTNode;
    /* 树结构 */
    typedef struct                      
    {
        /* 结点数组 */
        PTNode nodes[MAX_TREE_SIZE];    
        /* 根的位置和结点数 */
        int r, n;                       
    } PTree;
    

    有了这样的结构定义,我们就可以来实现双亲表示法了。由于根结点是没有双亲的,所以我们约定根结点的位置域设置为-1,这也就意味着,我们所有的结点都存有它双亲的位置。

    image-20200503210319203
    下标 data parent
    0 A -1
    1 B 0
    2 C 0
    3 D 1
    4 E 2
    5 F 2
    6 G 3
    7 H 3
    8 I 3
    9 J 4

    这样的存储结构,我们可以根据结点的parent指针很容易找到它的双亲结点,所用的时间复杂度为O(1),直到parent为-1时,表示找到了树结点的根。可如果我们要知道结点的孩子是什么,对不起,请遍历整个结构才行。

    这真是麻烦,能不能改进一下呢?

    当然可以。我们增加一个结点最左边孩子的域,不妨叫它长子域,这样就可以很容易得到结点的孩子。如果没有孩子的结点,这个长子域就设置为-1,

    image-20200503210802763

    对于有0个或1个孩子结点来说,这样的结构是解决了要找结点孩子的问题了。甚至是有2个孩子,知道了长子是谁,另一个当然就是次子了。

    另外一个问题场景,我们很关注各兄弟之间的关系,双亲表示法无法体现这样的关系,那我们怎么办?嗯,可以增加一个右兄弟域来体现兄弟关系,也就是说,每一个结点如果它存在右兄弟,则记录下右兄弟的下标。同样的,如果右兄弟不存在,则赋值为-1,

    image-20200503210916304

    但如果结点的孩子很多,超过了2个。我们又关注结点的双亲、又关注结点的孩子、还关注结点的兄弟,而且对时间遍历要求还比较高,那么我们还可以把此结构扩展为有双亲域、长子域、再有右兄弟域。存储结构的设计是一个非常灵活的过程。一个存储结构设计得是否合理,取决于基于该存储结构的运算是否适合、是否方便,时间复杂度好不好等。注意也不是越多越好,有需要时再设计相应的结构。就像再好听的音乐,不停反复听上千遍也会腻味,再好看的电影,一段时间反复看上百遍,也会无趣,你们说是吧?

    孩子表示法

    换一种完全不同的考虑方法。由于树中每个结点可能有多棵子树,可以考虑用多重链表,即每个结点有多个指针域,其中每个指针指向一棵子树的根结点,我们把这种方法叫做多重链表表示法。不过,树的每个结点的度,也就是它的孩子个数是不同的。所以可以设计两种方案来解决。

    方案一

    一种是指针域的个数就等于树的度,复习一下,树的度是树各个结点度的最大值。

    image-20200503211901630

    其中data是数据域。child1到childd是指针域,用来指向该结点的孩子结点。

    image-20200503211948901

    这种方法对于树中各结点的度相差很大时,显然是很浪费空间的,因为有很多的结点,它的指针域都是空的。不过如果树的各结点度相差很小时,那就意味着开辟的空间被充分利用了,这时存储结构的缺点反而变成了优点。

    既然很多指针域都可能为空,为什么不按需分配空间呢。于是我们有了第二种方案。

    方案二

    第二种方案每个结点指针域的个数等于该结点的度,我们专门取一个位置来存储结点指针域的个数,

    image-20200503212119422

    其中data为数据域,degree为度域,也就是存储该结点的孩子结点的个数,child1到childd为指针域,指向该结点的各个孩子的结点。

    image-20200503212212160

    这种方法克服了浪费空间的缺点,对空间利用率是很高了,但是由于各个结点的链表是不相同的结构,加上要维护结点的度的数值,在运算上就会带来时间上的损耗。

    能否有更好的方法,既可以减少空指针的浪费又能使结点结构相同。

    仔细观察,我们为了要遍历整棵树,把每个结点放到一个顺序存储结构的数组中是合理的,但每个结点的孩子有多少是不确定的,所以我们再对每个结点的孩子建立一个单链表体现它们的关系。

    这就是我们要讲的孩子表示法。具体办法是,把每个结点的孩子结点排列起来,以单链表作存储结构,则n个结点有n个孩子链表,如果是叶子结点则此单链表为空。然后n个头指针又组成一个线性表,采用顺序存储结构,存放进一个一维数组中,

    image-20200503212352940

    为此,设计两种结点结构,一个是孩子链表的孩子结点,

    child next

    其中child是数据域,用来存储某个结点在表头数组中的下标。next是指针域,用来存储指向某结点的下一个孩子结点的指针。

    另一个是表头数组的表头结点,

    child firstchild

    其中data是数据域,存储某结点的数据信息。firstchild是头指针域,存储该结点的孩子链表的头指针。

    以下是我们的孩子表示法的结构定义代码。

    /* 树的孩子表示法结构定义 */
    #define MAX_TREE_SIZE 100
    /* 孩子结点 */
    typedef struct CTNode              
    {
        int child;
        struct CTNode *next;
    } *ChildPtr;
    /* 表头结构 */
    typedef struct                     
    {
        TElemType data;
        ChildPtr firstchild;
    } CTBox;
    /* 树结构 */
    typedef struct                     
    {
        /* 结点数组 */
        CTBox nodes[MAX_TREE_SIZE];    
        /* 根的位置和结点数 */
        int r,n;                       
    } CTree;
    

    这样的结构对于我们要查找某个结点的某个孩子,或者找某个结点的兄弟,只需要查找这个结点的孩子单链表即可。对于遍历整棵树也是很方便的,对头结点的数组循环即可。

    但是,这也存在着问题,我如何知道某个结点的双亲是谁呢?比较麻烦,需要整棵树遍历才行,难道就不可以把双亲表示法和孩子表示法综合一下吗?当然是可以。

    image-20200503212954611

    我们把这种方法称为双亲孩子表示法,应该算是孩子表示法的改进。

    孩子兄弟表示法

    刚才我们分别从双亲的角度和从孩子的角度研究树的存储结构,如果我们从树结点的兄弟的角度考虑又会如何呢?当然,对于树这样的层级结构来说,只研究结点的兄弟是不行的,我们观察后发现,任意一棵树,它的结点的第一个孩子如果存在就是唯一的,它的右兄弟如果存在也是唯一的。因此,我们设置两个指针,分别指向该结点的第一个孩子和此结点的右兄弟。

    结点结构如下

    其中data是数据域,firstchild为指针域,存储该结点的第一个孩子结点的存储地址,right-sib是指针域,存储该结点的右兄弟结点的存储地址。

    结构定义代码如下

    /* 树的孩子兄弟表示法结构定义 */
    typedef struct CSNode
    {
        TElemType data;
        struct CSNode *firstchild, 
                      *rightsib;
    } CSNode, *CSTree;
    
    image-20200504124943633

    这种表示法,给查找某个结点的某个孩子带来了方便,只需要通过fistchild找到此结点的长子,然后再通过长子结点的rightsib找到它的二弟,接着一直下去,直到找到具体的孩子。当然,如果想找某个结点的双亲,这个表示法也是有缺陷的.

    相关文章

      网友评论

          本文标题:数据结构与算法-树

          本文链接:https://www.haomeiwen.com/subject/osweghtx.html