Измерване на информацията

Теорията на информацията използва термина “ентропия” като мярка на количеството информация, закодирана в едно съобщение. Колкото по-висока е ентропията на съобщението, толкова повече информация съдържа то.

Изчисляване на ентропията

Ентропията за единичен символ се дефинира като отрицателния логаритъм на вероятността му. За намирането на информационното съдържание на дадено съобщение в битове, изразяваме ентропията като логаритъм при основа две.

битове = - log 2 ( вероятност )

Пример

 

Ако вероятността буквата “а” да се срещне в дадено съобщение е 1/16, информационното съдържание на “а” в съобщението е - log 2 ( 1/16 ). Знаем, че

log a ( x ) / log a ( b ) = log b ( x )

=> log 2 ( 1 / 16 ) = ( log ( 1/ 16 )) / log (2)

=> log 2 ( 1 / 16 ) = ( log ( 0.0625 )) / log (2)

=> log 2 ( 1 / 16 ) ≈ ( log ( 0.0625 )) / 0.301

=> log 2 ( 1 / 16 ) ≈ -1.205 / 0.301

=> log 2 ( 1 / 16 ) ≈ -1.205 / 0.301

=> log 2 ( 1 / 16 ) = - 4

=> - log 2 ( 1 / 16 ) = 4

т.е. информационното съдържание на “а” в съобщението е 4 бита.

Ентропия на съобщение

Ентропията на едно съобщение е сума от ентропиите на всички негови символи.

Пример

Съгласно горния пример, ако информационното съдържание на “а” е 4, то информационното съдържание на съобщението “ааааа” е 20 бита.

 

Ако трябва да кодираме съобщението “ааааа”, чието информационно съдържание е 20 бита чрез ASCII таблицата ще се наложи да използвам 40 бита (поради факта, че в ASCII един знак се представя от 1 байт или 8 бита). Точно тази разлика от 20 бита между ентропията на съобщението и 40 бита нужни за неговото машинно представяне предоставя потенциал на компресирането на данни.

 

ВАЖНО

Ентропията не може да се използва за универсално измерване на информационното съдържание. Нейната стойност силно зависи от вероятността на отделните символи, които са контекстно зависими спрямо избрания статистически модел. Този модел определя, колко преходни символа се вземат при изчисляването на вероятността за срещане.

TODO:// експеримента на Шенън

В идеалния случай на компресия всеки символ се кодира в броя битове на информационното му съдържание. Ако “a” носи 4 бита информация, то “а” трябва да се кодира точно в 4 бита. Различните кодове таблици сериозно се отдалечават от идеалния модел.

Измерване на компресията

За измерване на постигнатите нива на компресия се използва термина “коефициент на компресия”. Коефициентът на компресия се измерва по следния начин:

коефициент_на_компресия = първоначален_размер / размер_след_компресиране : 1

 



SAM - Science At Manchev.org
science.manchev.org