2011年6月13日 星期一

[about]entropy

近代的資料壓縮技術是隨著資訊理論(Information Theory)的發展而開始的,而對於資訊的含量,在資訊理論中有一套公式化的計量方式,稱為entropy。
Entropy被定義為:-log2(資料出現的機率)
也就是,我們在考慮一筆特定的資料(可以想做是某個特定的符號)在一連串資料中所搭載的資訊含量時,可藉由計算它的entropy來判定。Entropy就類似它原本在熱學中的意義一樣,越高的entropy代表著越多的資訊承載量
當一個符號在一連串資料中出現越多次時,它包含的資料量越少。或是說,當一個符號一再在資料中出現時,我們若選擇使用較少的容量來表示這個符號,那我們就能節省比較多空間。也就是說,在重新對資料編碼時,出現越多次的資料選用長度較小的碼來表示,出現很少的資料則可以使用長度較長的碼,這樣我們能預期編碼後的資料量能比原本的少,而達壓縮的目的。後面我們會看到大多數的壓縮方式是採用和這種方法類似的精神。
Entropy為我們提供了一個估算資料含量的方式,而事實上,我們也可將它想做壓縮的理論下界。也就是說,我們使用各種壓縮法,在最理想的情況下能把資料壓縮到等同於它的entropy的容量。在實際的應用上,我們將會發現即便是最好的壓縮方式也只能最到盡量逼近entropy大小的境界,所以entropy是一個理論上能壓縮到的最小值。

沒有留言:

張貼留言