Код Гаффмана

Алгоритм Гаффмана (або коди Гафмена[1]) — адаптивний жадібний алгоритм оптимального префіксного кодування алфавіту з мінімальною надмірністю. Був розроблений аспірантом Массачусетського технологічного інституту Девідом Гаффманом при написанні ним курсової роботи та надрукований в статті 1952 року «A Method for the Construction of Minimum-Redundancy Codes»[2]. Нині[коли?] використовується в багатьох програмах стиснення даних без втрат.

На відміну від алгоритму Шеннона — Фано, алгоритм Гаффмана залишається завжди оптимальним і для вторинних алфавітів m2 з більш ніж двома символами.

Цей метод кодування складається з двох основних етапів:

  1. Побудова оптимального кодового дерева
  2. Побудова відображення код-символ на основі побудованого дерева

Кодування Гаффмана

Один з перших алгоритмів ефективного кодування інформації був запропонований 1952 року Девідом Гаффманом. Ідея алгоритму така: знаючи ймовірності появи символів у повідомленні, можна описати процедуру побудови кодів змінної довжини, що складаються з цілої кількості бітів. Символам з більшою ймовірністю ставляться у відповідність коротші коди. Коди Гаффмана володіють властивістю префіксності (тобто жодне кодове слово не є префіксом іншого), що дозволяє однозначно їх декодувати.

Класичний алгоритм Гаффмана на вході отримує таблицю частот з якими зустрічаються символи у повідомленні. Далі на підставі цієї таблиці будується дерево кодування Гаффмана (Н-дерево).

  1. Символи вхідного алфавіту утворюють список вільних вузлів. Кожен лист має вагу, яка може бути рівною або ймовірності, або кількості входжень символу у стиснене повідомлення.
  2. Вибираються два вільних вузли дерева з найменшими вагами.
  3. Створюється їхній батьківський вузол з вагою, рівною їх сумарній вазі.
  4. Вузол-батько додається в список вільних вузлів, а два його нащадки видаляються з цього списку.
  5. Одній дузі, котра виходить з вузла батька, ставиться у відповідність біт 1, інший — біт 0.
  6. Кроки, починаючи з другого, повторюються доти, поки в списку вільних вузлів не залишиться тільки один вільний вузол. Він і буде вважатися коренем дерева.
Кодування Гаффмана

Припустимо, у нас є наступна таблиця частот:

15 7 6 6 5
A B C D E

Цей процес можна подати як побудову дерева, корінь якого — символ з сумою ймовірностей об'єднаних символів, отриманий при об'єднанні символів з останнього кроку, його n0 нащадків — символи з попереднього кроку і т. д.

Щоб визначити код для кожного із символів, що входять у повідомлення, потрібно пройти шлях від листка дерева, який відповідає поточному символу, до його кореня, накопичуючи біти при переміщенні по гілках дерева (перша гілка в шляху відповідає молодшому біту). Отримана таким чином послідовність бітів є кодом цього символу, записаним у зворотному порядку.

Для даної таблиці символів коди Гаффмана будуть виглядати так:

A B C D E
0 100 101 110 111

Оскільки жоден з отриманих кодів не є префіксом іншого, вони можуть бути однозначно декодовані при читанні їх з потоку. Крім того, найчастіший символ повідомлення А закодований найменшою кількістю біт, а найрідкісніший символ E — найбільшою.

При цьому загальна довжина повідомлення, що складається з наведених у таблиці символів, складе 87 біт (в середньому 2,2308 біта на символ). При використанні рівномірного кодування загальна довжина повідомлення склала б 117 біт (рівно 3 біти на символ). Зауважимо, що ентропія джерела, яке незалежним чином породжує символи із зазначеними частотами, складає ~ 2,1858 біта на символ, тобто надмірність побудованого для такого джерела коду Гаффмана, що розуміється, як відмінність середнього числа біт на символ від ентропії, становить менше 0,05 біта на символ.

Класичний алгоритм Гаффмана має ряд істотних недоліків. По-перше, для відновлення вмісту стиснутого повідомлення декодер повинен знати таблицю частот, якою користувався кодер. Отже, довжина стиснутого повідомлення збільшується на довжину таблиці частот, яка повинна надсилатися попереду даних, що може звести нанівець всі зусилля щодо стиснення повідомлення. Крім того, необхідність наявності повної частотної статистики перед початком власне кодування вимагає двох проходів по повідомленню: одного для побудови моделі повідомлення (таблиці частот і Н-дерева), іншого для власне кодування. По-друге, надмірність кодування обертається на нуль лише в тих випадках, коли ймовірності кодованих символів є оберненими степеням числа 2. По-третє, для джерела з ентропією, що не перевищує 1 (наприклад, для двійкового джерела), безпосереднє застосування коду Гаффмана позбавлене сенсу.

Адаптивне стиснення

Адаптивне стиснення дозволяє не передавати модель повідомлення разом з ним самим і обмежитися одним проходом по повідомленню як при кодуванні, так і при декодуванні.

У створенні алгоритму адаптивного кодування Гаффмана найбільші складнощі виникають при розробці процедури поновлення моделі чергових символів. Теоретично можна було би просто вставити всередину цієї процедури повну побудову дерева кодування Гаффмана, однак, такий алгоритм стиснення мав би неприйнятно низьку швидкодію, оскільки побудова Н-дерева — це занадто велика робота і виконувати її при обробці кожного символу нерозумно. На щастя, існує спосіб модифікувати вже наявне Н-дерево так, щоб відобразити обробку нового символу.

Оновлення дерева при зчитуванні чергового символу повідомлення складається з двох операцій.

Перша — збільшення ваги вузлів дерева. Спочатку збільшуємо вагу листка, який відповідає прочитаному символу, на одиницю. Потім збільшуємо вагу батька, щоб узгодити її з новими значеннями ваг нащадків. Цей процес продовжується до тих пір, поки ми не дістанемося кореня дерева. Середнє число операцій збільшення ваги дорівнює середній кількістю бітів, необхідних для того, щоб закодувати символ.

Друга операція — перестановка вузлів дерева — потрібна тоді, коли збільшення ваги вузла призводить до порушення властивості впорядкованості, тобто тоді, коли збільшена вага вузла стає більшою, ніж вага наступного за порядком вузла. Якщо і далі продовжувати обробляти збільшення ваги, рухаючись до кореня дерева, то дерево перестане бути деревом Гаффмана.

Щоб зберегти упорядкованість дерева кодування, алгоритм працює в такий спосіб. Нехай нова збільшена вага вузла дорівнює W+1. Тоді починаємо рухатися по списку у бік збільшення ваги, поки не знайдемо останній вузол з вагою W. Переставимо поточний і знайдений вузли між собою в списку, відновлюючи таким чином порядок у дереві (при цьому батьки кожного з вузлів теж зміняться). На цьому операція перестановки закінчується.

Після перестановки операція збільшення ваги вузлів продовжується далі. Наступний вузол, вага якого буде збільшена алгоритмом, — це новий батько вузла, збільшення ваги якого викликало перестановку.

Переповнення

У процесі роботи алгоритму стиснення ваги вузлів у дереві кодування Гаффмана неухильно зростають. Перша проблема виникає тоді, коли вага кореня дерева починає перевищувати місткість комірки, в якій він зберігається. Як правило, це 16-бітове значення і, отже, не може бути більшим, ніж 65535. Друга проблема, яка заслуговує ще більшої уваги, може виникнути значно раніше, коли розмір найдовшого коду Гаффмана перевищує місткість комірки, яка використовується для того, щоб передати його у вихідний потік. Декодеру все одно, якої довжини код він декодує, оскільки він рухається зверху вниз по дереву кодування, вибираючи з вхідного потоку по одному біту. А кодер повинен починати від листа дерева і рухатися вгору до кореня, збираючи біти, які потрібно передати. Зазвичай для цього використовують змінну цілого типу і, коли довжина коду Гаффмана перевершує розмір цілого типу в бітах, настає переповнення.

Можна довести, що максимальну довжину код Гаффмана для повідомлень з одним і тим самим вхідним алфавітом матиме, якщо частоти символів утворюють послідовність Фібоначчі. Повідомлення з частотами символів, рівними числам Фібоначчі до Fib(18), — це відмінний спосіб випробувати роботу програми стиснення за Гаффманом.

Масштабування ваг вузлів дерева Гаффмана

Беручи до уваги сказане вище, алгоритм поновлення дерева Гаффмана повинен бути змінений таким чином: при збільшенні ваги потрібно перевіряти її на досягнення допустимого максимуму. Якщо ми досягли максимуму, то необхідно «масштабувати» вагу, зазвичай поділивши вагу листка на ціле число, наприклад, 2, а потім перерахувавши ваги всіх інших вузлів.

Однак при діленні ваги навпіл виникає проблема, пов'язана з тим, що після виконання цієї операції дерево може змінити свою форму. Пояснюється це тим, що ми ділимо цілі числа і при діленні відкидаємо дробову частину.

Правильно організоване дерево Гаффмана після масштабування може мати форму, яка значно відрізняється від початкової. Це відбувається тому, що масштабування призводить до втрати точності нашої статистики. Але зі збором нової статистики наслідки цих «помилок» практично сходять нанівець. Масштабування ваги — досить дорога операція, оскільки вона призводить до необхідності заново будувати все дерево кодування. Але оскільки необхідність у ній виникає відносно рідко, то з цим можна змиритися.

Виграш від масштабування

Масштабування ваги вузлів дерева через певні інтервали дає несподіваний результат. Незважаючи на те, що при масштабуванні відбувається втрата точності статистики, тести показують, що воно призводить до кращих показників стиснення, ніж якщо б масштабування відкладалося. Це можна пояснити тим, що поточні символи стисненого потоку більше «схожі» на своїх близьких попередників, ніж на тих, які зустрічалися набагато раніше. Масштабування призводить до зменшення впливу «давніх» символів на статистику і до збільшення впливу на неї «недавніх» символів. Це дуже складно виміряти кількісно, ​​але, в принципі, масштабування позитивно впливає на ступінь стиснення інформації. Експерименти з масштабуванням в різних точках процесу стиснення показують, що ступінь стиснення сильно залежить від моменту масштабування ваги, але не існує правила вибору оптимального моменту масштабування для програми, орієнтованої на стиск будь-яких типів інформації.

Застосування

Стиснення даних Гаффмана застосовується під час стиснення фото- і відеозображень (JPEG, стандарти стиснення MPEG), в архіваторах (PKZIP, LZH та інших), в протоколах передачі даних MNP5 і MNP7.

Примітки

  1. Т. Кормен; Ч. Лейзерсон; Р. Рівест; К. Стайн (2009) [1990]. 16.3: Коди Гафмена. Вступ до алгоритмів (вид. 3rd). MIT Press і McGraw-Hill. ISBN 0-262-03384-4.
  2. Huffman, D. (1952). A Method for the Construction of Minimum-Redundancy Codes (PDF). Proceedings of the IRE. 40 (9): 1098—1101. doi:10.1109/JRPROC.1952.273898. Архів оригіналу (PDF) за 15 Грудня 2010. Процитовано 30 Вересня 2017.

Посилання


Read other articles:

Liebherr 2018 World Team Table Tennis Championships 54-й чемпионат мира по настольному теннису Город-организатор Хальмстад, Швеция Открытие 29 апреля 2018 Закрытие 6 мая 2018 Дата 2018 Стадион Хальмстад Арена 20172019 Чемпионат мира по настольному теннису среди команд 2018 года (полное официальное название ...

 

Meadow ParkLokasiBroughinge Road,Borehamwood, HertfordshireWD6 5ALPemilikBoreham Wood FCKapasitas4.500 (1.700 kursi)[1]Rekor kehadiran4.101 (Boreham Wood vs St Albans City - Piala FA 2021-2022, 6 Desember 2021)Ukuran lapangan110 x 77 yard (100,6 m × 70,4 m)[2]Dibuka1963PemakaiBoreham Wood FCArsenal WFCArsenal U-23 Meadow Park adalah sebuah stadion sepak bola di Borehamwood, Hertfordshire, Inggris. Stadion ini digunakan oleh Boreham Wood FC, Arsenal WFC, da...

 

إدوارد لاوري نورتون معلومات شخصية الميلاد 28 يوليو 1898  روكلاند  الوفاة 28 يناير 1983 (84 سنة)   مواطنة الولايات المتحدة  الحياة العملية المدرسة الأم مؤسسة فو المدرسية للهندسة والعلوم التطبيقية  [لغات أخرى]‏  المهنة مخترع،  ومهندس،  وعالم  تعديل مصدري -...

NGC 2899 La nébuleuse planétaire NGC 2899 Données d’observation(Époque J2000.0) Constellation Voiles[1] Ascension droite (α) 09h 27m 02,9s[2] Déclinaison (δ) −56° 06′ 22″ [2] Magnitude apparente (V) 11,8[3] 12,2 dans la Bande B[3] Dimensions apparentes (V) 1,95′x1,0′[3] Localisation dans la constellation : Voiles Astrométrie Distance ∼6 500 a.l. (∼1 990 pc)[4] Caractéristiques physiques Type d'objet Nébule...

 

日本の政治家八並 武治やつなみ たけじ 八並武治生年月日 (1877-12-04) 1877年12月4日出生地 日本 大分県下毛郡鶴居村没年月日 (1947-07-10) 1947年7月10日(69歳没)出身校 東京帝国大学所属政党 憲政会立憲民政党日本進歩党テンプレートを表示 八並 武治(やつなみ たけじ、1877年(明治10年)12月4日[1][注釈 1] - 1947年(昭和22年)7月10日[1][2])は、明治末か

 

Walikota BogorPetahanaBima Arya Sugiartosejak 20 April 2019KediamanBalai Kota BogorMasa jabatan5 tahunDibentuk1945Pejabat pertamaR. Odang PrawiradirjaSitus webkotabogor.go.id Berikut adalah Daftar Wali Kota Bogor dari masa ke masa: No Wali Kota Awal menjabat Akhir menjabat Prd. Ket. Wakil Wali Kota 1 A. Bagchus 1920 1927 1 2 J.M. Wesselink 1927 1931 2 3 FAJ. Middelkoop 1931 1933 3 4 AH de Jong 1933 1934 4 5 GF Rambonnet 1934 1935 5 6 N Beets 1935 1937 6 7 PHM. Hildebrand 1937 1941 7 8 Mr...

Музей лемківської культури 49°05′09″ пн. ш. 25°09′52″ сх. д. / 49.085936874858873580° пн. ш. 25.16463154463354002° сх. д. / 49.085936874858873580; 25.16463154463354002Координати: 49°05′09″ пн. ш. 25°09′52″ сх. д. / 49.085936874858873580° пн. ш. 25.16463154463354002° сх. д. / 49.08593687...

 

Hunan AvetisyanNama asliՀունան ԱվետիսյանУна́н Мкрти́чович Аветися́нLahir(1914-07-20)20 Juli 1914Tsav, Kegubernuran Erivan, Kekaisaran Rusia(sekarang Provinsi Syunik, Republik Armenia)Meninggal16 September 1943(1943-09-16) (umur 29)Krai Krasnodar, SFSR Rusia, Uni Soviet(sekarang Federasi Rusia)Pengabdian Uni SovietDinas/cabang Tentara MerahLama dinas1942–1943PangkatSersan seniorPerang/pertempuranPerang Dunia IIPertempuran KaukasusPenghargaanP...

 

Not to be confused with Alfafara. This article does not cite any sources. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Alfafar – news · newspapers · books · scholar · JSTOR (December 2016) (Learn how and when to remove this template message) Municipality in Valencian Community, SpainAlfafarMunicipality Coat of armsAlfafarLocation in SpainCoordinates: 39°25′20...

アンドリュー・ブロクサムと兄のリチャード叔父の画家トーマス・ローレンスの画 ブロンド号の旅程 Cyanoliseus patagonus bloxami(画)エドワード・リア アンドリュー・ブロクサム(Andrew Bloxam、1801年9月22日 – 1878年2月2日)は、イギリスの聖職者、博物学者である。1824年から1826年の間、南米をめぐり、太平洋を航海したイギリス軍艦、ブロンド号に博物学者として乗船し、主...

 

American politician Mingus MappsPortland City CommissionerIncumbentAssumed office January 1, 2021Preceded byChloe Eudaly Personal detailsBorn (1968-04-09) April 9, 1968 (age 55)Political partyDemocraticAlma materReed College (BA)Cornell University (PhD) Mingus Ulysses Mapps (born April 9, 1968) is an American professor and politician in Portland, Oregon. He was elected to the city council in November 2020,[1] winning 56% of the vote.[2] His bureau assignments as of Se...

 

Ukrainian think tank Razumkov CentreFormation15 August 1994TypePublic policy think tankHeadquartersKyiv, UkraineMain organRazumkov Centre BoardBudget $987,000 (2007)Websiterazumkov.org.ua Razumkov Centre (Ukrainian: Центр Разумкова), or fully the Ukrainian Centre for Economic and Political Studies named after Olexander Razumkov (Ukrainian: Український центр економічних і політичних досліджень імені Олександра Раз...

Mega ManThe Wily WarsLogo du jeu.Développeur Minakuchi EngineeringÉditeur CapcomCompositeur Kinuyo YamashitaDate de sortie JAP : 21 octobre 1994USA : 31 décembre 1994 (Sega Channel)EUR : 3 avril 1995 Franchise Mega ManGenre Jeu de plates-formesMode de jeu Un joueurPlate-forme Mega Drivemodifier - modifier le code - modifier Wikidata Mega Man: The Wily Wars (Rockman Mega World (ロックマン メガワールド, Rokkuman Megawārudo?) au Japon) est une compilation des trois ...

 

American politician Image of Stephen R. Canessa Stephen R. Canessa (born 1980) was a member of the Massachusetts House of Representatives, representing the 12th Bristol District. He resigned to accept the position of executive director for government affairs at the Southcoast Health Systems.[1] He is a member of the United States Democratic Party. Rep. Canessa's district includes East Freetown, Lakeville, Middleborough, East Taunton, and New Bedford, Massachusetts. He is a graduate of Apponeq...

 

The 2004–05 season was the 90th in the history of the Isthmian League, which is an English football competition featuring semi-professional and amateur clubs from London, East and South East England. Also, it was the first season after the creation of the Conference North and South, one step above the Isthmian League. Therefore, it was the inaugural season for the league at the seventh, eighth and ninth tiers in the English league system. Premier Division Football league seasonIsthmian Leag...

Tunisian TV series or program Deal or No DealArabicDlilek Mlekدليلك ملك Created byDick de RykJohn de MolPresented bySami El FihriCountry of originTunisiaNo. of episodes419 (El Hiwar Ettounsi)ProductionRunning time50 minutes (with commercials)Original releaseNetworkTunisie 7 (2005 – 2007)El Hiwar Ettounsi (2014 – present)Release2005 (2005) –June 2018 (2018-06) Deal or No Deal has a version airing in Tunisia, called Dlilek Mlek (دليلك ملك), which is bro...

 

American actress Diane GuerreroGuerrero at the 2016 Texas Book FestivalBorn (1986-07-21) July 21, 1986 (age 37)Passaic, New Jersey, U.S.Occupation(s)Actress, singerYears active2011–presentKnown for Orange Is the New Black Jane the Virgin Doom Patrol Encanto Diane Guerrero (born July 21, 1986[1][2]) is an American actress. She is known for her roles as inmate Maritza Ramos in the Netflix series Orange Is the New Black and Lina on Jane the Virgin. Guerrero grew ...

 

عمرو عبد الحميد   معلومات شخصية مواطنة مصر  عدد الأولاد 1   الحياة العملية المهنة صحفي،  ومقدم تلفزيوني  اللغة الأم العربية  اللغات العربية  تعديل مصدري - تعديل   عمرو عبد الحميد هو المدير العام الحالي لقناة قناة تن الفضائية[1] ومذيع مصري يقدم برنامج «...

Crocidura douceti Crocidura douceti Status konservasiRisiko rendahIUCN40629 TaksonomiKerajaanAnimaliaFilumChordataKelasMammaliaOrdoEulipotyphlaFamiliSoricidaeGenusCrociduraSpesiesCrocidura douceti Heim de Balsac, 1958 DistribusiPersebaran Crocidura douceti lbs Crocidura douceti adalah sebuah spesies mamalia dalam keluarga Soricidae. Spesies tersebut ditemukan di Pantai Gading, Liberia, dan mungkin Nigeria. Habitat alaminya adalah hutan kering subtropis atau tropis. Sumber ^ Hutterer, R. (2008...

 

この項目には性的な表現や記述が含まれます。免責事項もお読みください。 この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方)出典検索?: 陰裂 – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサー...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!