1.6 字符压缩技术
字符压缩技术时常用到得编码技术,压缩的目的在于出现频率较高的字符用短编码表示,而对于很少出现的字符用较长编码表示,从而提升字符在某些领域的负荷,如网络过程中减少流量开销。
1.6.1 哈夫曼编码
哈夫曼编码可以对词语进行数值化。根据词语可以进行哈夫曼编码处理,以减少词语集合的表示大小。哈夫曼编码是一种无损数据压缩的权编码算法,它的思想是通过变长编码的方式对原始数据进行编码,其中的变长编码表示通过权值评估的方式获得,出现权值较高的词语具有较短的编码,反之权值较低的词语具有较长的编码,使整个数据在网络中的平均传输长度变短,从而达到无损压缩数据的目的。
在计算哈夫曼编码之前需要建立哈夫曼树(又称作最优二叉树)。哈夫曼树是一种带权路劲长度最短的二叉树。带权路径长度是指所有叶节点的权值与叶节点到根节点长度的乘积,哈夫曼树根据权重编码后能够达到效果的理论基础在于所有叶节点的带权路径长度相加得到的值是最小的。
网友评论