哈夫曼编码( Huffman Coding),又称霍夫曼编码,是一种编码方式,哈夫曼编码是可变字长编码( VLC )的一种。 Huffman 于 1952 年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫做 Huffman编码(有时也称为霍夫曼编码)。
定义看起来比较抽象,我们来做一下具体的解释。哈夫曼编码可以用来做无损的文件压缩,我们常用的 zip,rar,7z 等压缩算法,都用到了哈夫曼编码,而哈夫曼编码思想的本质是贪心算法。
具体原理是这样的,我们日常用到的所有文件,存储在硬盘上的每一个字节( 8 bit ),都可以表示为 0−255的一个数字。反过来,保存这个数字需要一个字节的空间。但这些数字出现的频率是不一样的,有的高有的低。于是我们想有没有方法,让出现频率高的数字编码长度短一些,让出现频率低的数字,编码长度长一些,这样占用的总空间就变小了。
编码 | 占用多少bit |
---|---|
10 | 2 |
11 | 2 |
000 | 3 |
001 | 3 |
010 | 3 |
0110 | 4 |
0111 | 4 |
哈夫曼编码保证所有编码的前缀都不相同,这样就可以保证不同的原始数据一定编码成不同的哈夫曼码。反过来做解码的过程中,能够明确知道每一个编码的结束位置,方便快速解码。
如果我们把编码中的 0,1,看作树的节点,那么恰好对应一颗二叉树,这就是哈夫曼树。
给定 N 个权值作为 N 个叶子结点,构造一棵二叉树,若该树的带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树 (Huffman Tree) 。哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近。
以本图为例,绿色的是最终的叶子节点,节点上的数字,是点的权值 Wi,我们可以理解为编码出现的次数。而叶子结点到根结点的距离 Li可以理解为编码的长度。而整个树的权值等于所有 Wi×Li的和,我们可以理解为总的编码长度。
按照本图的分配方法,整棵树的权值为: (2+4)×5+7×4+(8+12+19)×3+(20+30)×2=275。
这是一个最优的编码方式。构造哈夫曼树,需要配合一个优先队列来实现,后面我们用例题来帮助大家理解。