美文网首页
大师兄的数据结构学习笔记(八): 哈夫曼树与哈夫曼编码

大师兄的数据结构学习笔记(八): 哈夫曼树与哈夫曼编码

作者: superkmi | 来源:发表于2020-10-30 10:16 被阅读0次

    大师兄的数据结构学习笔记(七):堆
    大师兄的数据结构学习笔记(九): 图

    一、哈夫曼树

    1. 带权路径长度(WPL)
    • 树的所有叶结点的带权路径长度之和,称为树的带权路径长度,表示为WPL。
    • 公式:WPL = \sum^n_{k=1}w_kl_k
    2. 什么是哈夫曼树(Huffman Tree)
    • 如果一颗二叉树的WPL达到最小,称为最优二叉树或哈夫曼树。


    3. 哈夫曼树的构造
    • 每次把权值最小得两颗二叉树合并。
    // 树结构
    struct TreeNode 
    {
        int Weight;    //权值
        int lchild, rchild, parent;  // 左、右和双亲结点的下标
    };
    
    // 选出权值最小的两个结点
    void SelectMin(TreeNode a[], int n, int& s1, int& s2)
    {
        for (int i = 0; i < n; i++)
        {
            if (a[i].parent == -1)
            {
                s1 = i;
                break;
            }
        }
        for (int i = 0; i < n; i++)
        {
            if (a[i].parent == -1 && a[s1].Weight > a[i].Weight)
                s1 = i;
        }
        for (int j = 0; j < n; j++)
        {
            if (a[j].parent == -1 && j != s1)
            {
                s2 = j;
                break;
            }
        }
        for (int j = 0; j < n; j++)
        {
            if (a[j].parent == -1 && a[s2].Weight > a[j].Weight && j != s1)
                s2 = j;
        }
    }
    
    // 构造哈夫曼树
    void Huffman(TreeNode huftree[],int w[],int n)
    {
        for (int i = 0; i < 2 * n - 1; i++)  // 初始化
        {
            huftree[i].parent = -1;
            huftree[i].lchild = -1;
            huftree[i].rchild = -1;
        }
        for (int i = 0; i < n; i++) // 构造只有根节点的二叉树 
        {
            huftree[i].Weight = w[i];
        }
        for (int k = n; k < 2 * n - 1; k++) // 从权值最小的两个合并
        {
            int i1, i2;
            SelectMin(huftree, k, i1, i2);
            huftree[i1].parent = k;
            huftree[i2].parent = k;
            huftree[k].lchild = i1;
            huftree[k].rchild = i2;
            huftree[k].Weight = huftree[i1].Weight + huftree[i2].Weight;
        }
    }
    
    4. 哈夫曼树的特点
    • 没有度为1的结点。
    • n个叶结点的哈夫曼树共有2n-1个结点。
    • 任意非叶结点的左右子树交换后仍是哈夫曼树。
    • 对同一组权值,可以存在不同构的两个哈夫曼树。

    二、哈夫曼编码

    1. 关于编码
    • 在通信行业中,通常用二进制编码表示字母或其他字符,并用这样的编码来表示字符序列, 例: A,B,C分别用00,01,10表示,ABC就是000110。
    2. 前缀编码
    • 实际应用中各字符的出现频度不相同,为了让编码序列的总长度更小,所需总空间最少,需要使用短编码表示大频率字符,用长编码表示小频率字符。
    • 译码的二义性问题,例:A,B,C分别为0,1,11,011可以译成ABB或AC。
    • 为了解决这个问题,需要使用前缀编码,要求任一字符的编码都不能是另一字符编码的前缀。
    3. 用二叉树设计前缀编码
    • 左右分支分表为0,1。
    • 字符只在叶节点上
    • 例:A:0 C:10 B:110 D:111
    4. 用哈夫曼树设计前缀编码
    • 假设需传送的电文为‘ABBCCCD’, 二叉树编码为'0110110101010111'(16位)。
    • 使用频率(权值)为:A(1) B(2) C(3) D(1)。
    • 这时如果使用哈夫曼树,可以根据权重优化编码,使编码最短。
    • 例: A(111) B(10) C (0) D(110)
    • 优化后的编码为:'1111010000110'(13位)
    4. 实现哈夫曼编码
    #ifndef HUFFMANCODE
    #define HUFFMANCODE
    #include<string>
    using namespace std;
    
    // 哈夫曼树结点结构
    struct Node {
        int Weight;                         // 权重
        char ch;                            // 存储符号
        string code;                        // 对应的编码
        int leftChild, rightChild, parent;  // 树的元素
    };
    
    class HuffmanCode
    {
    public:
        HuffmanCode(string str);                            // 构造函数
        ~HuffmanCode();                                     // 析构函数
        void getMin(int& first, int& second, int parent);   // 选取两个最小的元素
        void Merge(int first, int second, int parent);      // 合并结点
        void Encode();                                      // 编码
        void Decode(string str);                            // 解码
    private:
        Node* HuffmanTree; // 哈夫曼树
        int leafSize;  // 叶结点个数,也就是字符种类
    };
    #endif // !HUFFMANCODE
    
    #include <iostream>
    #include "HuffmanCode.h"
    
    //析构函数
    HuffmanCode::~HuffmanCode()
    {
        delete[]HuffmanTree;
    }
    
    // 构造函数
    HuffmanCode::HuffmanCode(string str)
    {
        int len = (int)str.size();
        int arr[256], i;
        HuffmanTree = new Node[256]; // 分配空间
    
        for (i = 0; i < (2 * len - 1); i++)
        {
            HuffmanTree[i].leftChild = -1;
            HuffmanTree[i].rightChild = -1;
            HuffmanTree[i].parent = -1;
            HuffmanTree[i].code = "";
        }
        
        memset(arr, 0, sizeof(arr)); // 初始化内存空间
        for (i = 0; i < len; i++)  // 统计字符出现次数
        {
            arr[str[i]]++;
        }
        leafSize = 0;
        for (i = 0; i < 256; i++)
        {
            if (arr[i] != 0)
            {
                HuffmanTree[leafSize].ch = (char)i;
                HuffmanTree[leafSize].Weight = arr[i];
                leafSize++;
            }
        }
    
        int first, second;
        for (i = leafSize; i < (2 * leafSize - 1); i++) // 合并两个最小的结点
        {
            getMin(first, second, i);
            Merge(first, second, i);
        }
    }
    
    // 合并两个weight最小的结点
    void HuffmanCode::Merge(int first, int second, int parent)
    {
        HuffmanTree[first].parent = parent;
        HuffmanTree[second].parent = parent;
        HuffmanTree[parent].leftChild = first;
        HuffmanTree[parent].rightChild = second;
        HuffmanTree[parent].Weight = HuffmanTree[first].Weight + HuffmanTree[second].Weight;
    }
    
    // 选择两个weight最小的元素
    void HuffmanCode::getMin(int& first, int& second, int parent)
    {
        double weight = 0;
        int i;
    
        for (i = 0; i < parent; i++)
        {
            if (HuffmanTree[i].parent != -1) // 已选过
            {
                continue;
            }
            if (weight == 0) // 第一次选
            {
                weight = HuffmanTree[i].Weight;
                first = i;
            }
            else if (HuffmanTree[i].Weight < weight)
            {
                weight = HuffmanTree[i].Weight;
                first = i;
            }
        }
    
        weight = 0;
        for (i = 0; i < parent; i++)
        {
            if (HuffmanTree[i].parent != -1 || i == first) // 如果是first跳过
            {
                continue;
            }
            if (weight == 0) // 如果是第一次选到
            {
                weight = HuffmanTree[i].Weight;
                second = i;
            }
            else if (HuffmanTree[i].Weight < weight)
            {
                weight = HuffmanTree[i].Weight;
                second = i;
            }
        }
    }
    
    
    // 编码
    void HuffmanCode::Encode()
    {
        string code;
        int i, j, k, parent;
    
        for (i = 0; i < leafSize; i++)
        {
            j = i;
            code = "";
            while (HuffmanTree[j].parent != -1)
            {
                parent = HuffmanTree[j].parent;
                if (j == HuffmanTree[parent].leftChild)
                {
                    code += "0";
                }
                else
                {
                    code += "1";
                }
                j = parent;
            }
            for (k = (int)code.size() - 1; k >= 0; k--)
            {
                HuffmanTree[i].code += code[k];
            }
            std::cout << HuffmanTree[i].ch << "的编码为:" << HuffmanTree[i].code << endl;
        }
    }
    
    // 解码
    void HuffmanCode::Decode(string str)
    {
        string decode, temp;
        int len = (int)str.size();
        int i, j;
        decode = temp = "";
        for (i = 0; i < len; i++)
        {
            temp += str[i];
            for (j = 0; j < leafSize; j++)
            {
                if (HuffmanTree[j].code == temp)
                {
                    decode += HuffmanTree[j].ch;
                    temp = "";
                    break;
                }
            }
            if (i == len - 1 && j == leafSize)
            {
                cout << "未找到编码" << endl;
                return;
            }
        }
        cout << decode << endl;
    }
    

    相关文章

      网友评论

          本文标题:大师兄的数据结构学习笔记(八): 哈夫曼树与哈夫曼编码

          本文链接:https://www.haomeiwen.com/subject/paqqvktx.html