Části 1, 2, 3 a 4 ISO/IEC 8859 byly původně standardem ECMA-94 organizace Ecma International.
Úvod
Nejstarší znakové kódy byly z historických důvodů a kvůli omezení některých přenosových datových protokolů omezené na 7 bitů.
95 tisknutelných znaků ASCII stačí pro vyměnu informací v moderní angličtině, většina jiných jazyků používajících latinku však potřebuje další symboly, které nejsou součástí ASCII. ISO/IEC 8859 řeší toto problém využitím osmého bitu v osmibitovém bytu, což poskytuje prostor pro dalších 96 tisknutelných znaků v oblasti G1.
Kvůli tomu, že různé jazyky používají různá diakritická znaménka, je celkový počet znaků s diakritikou větší, než kolik se vejde do jednoho osmibitového znakového kódu. Proto bylo vytvořeno několik kódování, z nichž 10 je určeno pro různé varianty latinky.
Norma ISO/IEC 8859-n definuje pouze tisknutelné znaky v oblasti G1 a byla navržena tak, aby mohla být používána ve spojení s řídicí znaky mapovanými na nepřiřazené kódy. Za tímto účelem řada kódování registrovaných organizací IANA přidává sadu řídicích znaků C0 (řídicí znaky mapované na kódy 0 až 31) z ISO/IEC 646 a sadu řídicích znaků C1 (s kódy 128 až 159) z ISO 6429, což dává osmibitové kódování, ve kterém je většina nebo všechny kódy přiřazené. Upřednostňované MIME jméno nebo kanonické jméno (pokud upřednostňované MIME jméno není zadané) těchto kódování je ISO-8859-n. Mnoho lidé používá termíny ISO/IEC 8859-n a ISO-8859-n jako synonyma. Pouze kódování ISO/IEC 8859-11 nebylo přiřazeno takovéto jméno znakové sady, pravděpodobně kvůli tomu, že je téměř identické s TIS 620.
Znaky
Norma ISO/IEC 8859 byla navržena pro spolehlivou výměnu informací, nikoli pro typografii; proto neobsahuje všechny symboly potřebné pro vysoce kvalitní typografii, jako například nepovinné slitky, uvozovky, lomítka, atd. Sázecí systémy kvůli tomu často používají proprietární rozšíření ASCII (např. kódování Cork v sázecím programu TeX) nebo ISO/IEC 8859 nebo Unicode.
Základním pravidlem bylo, že do kódování nebyly zařazeny znaky nebo symboly, které nebyly částí široce používané znakové sady pro zpracování dat a nevyskytovaly se na klávesnici psacích strojů pro příslušný jazyk. Proto se do kódování dostaly uvozovky tvaru dvojitých šipek « a » používané některými evropskými jazyky, ale nikoli dvojité uvozovky „ a “ používané v angličtině a některých jiných jazycích. Do kódování nebyly zahrnuty slitky œ a Œ používané ve francouzštině, protože je lze psát jako 'oe'. Bylo také vynecháno Ÿ, potřebné pouze pro texty psané velkými písmeny. Tyto znaky však byly zahrnuty později do ISO/IEC 8859-15, které také obsahuje nový znak Eura €. Podobně nebyla zahrnuta písmena 'ij' a 'IJ' používaná v nizozemštině, protože Nizozemci si zvykli je psát jako dvě písmena. Pro rumunštinu nebyly zařazeny znaky ‹Ș›/‹ș› a ‹Ț›/‹ț› (s čárkou) pod písmenem, protože je Unicode Consortium zpočátku považovalo za varianty znaků ‹Ş›/‹ş› a ‹Ţ›/‹ţ› (s cedillou). Písmena s čárkou pod znakem byla později přidána do standardu Unicode a jsou také v ISO/IEC 8859-16.
Většina kódování ISO/IEC 8859 obsahuje znaky diakritikou potřebné pro různé evropské jazyky používající latinku. Ostatní obsahují nelatinkové abecedy: řeckou abecedu, cyrilici, hebrejskou abecedu, arabskou abecedu a thajské písmo. Většina kódování obsahuje pouze samostatné znaky, přestože thajština, hebrejština a arabština používají i kombinační znaky. Norma však neobsahuje podporu východoasijských písem (CJK), protože jejich ideografická písma vyžadují tisíce kódových bodů. Zahrnuta není ani vietnamština, která sice používá latinku, ale má tolik znaků s diakritikou, že se nevejde se do 96 pozic (bez použití kombinační diakritiky). Obě japonské hláskové abecedy (hiragana a katakana, viz Kana) by se do tohoto počtu vešly, ale zakódované v ISO/IEC 8859 také nejsou.
Části ISO/IEC 8859
Norma ISO/IEC 8859 je rozdělena na následující části:
Pokrývá moderní řečtinu (monotonní pravopis). Může být také použito pro starou řečtinu psanou bez diakritiky nebo monotonním pravopisem, ale nemá znaky s diakritikou pro polytonní pravopis, které jsou součástí Unicode.
Pokrývá moderní hebrejskou abecedu, jak je používána v Izraeli. V praxi existují dvě různá kódování, logické pořadí (vyžaduje podporu obousměrného textu pro zobrazování) a vizuální (zleva doprava) pořadí (ve výsledku, po zpracování obousměrného textu a řádkovém zlomu).
Revize 8859-1, která nahradila některé málo používané symboly znakem Eura€ a písmeny Š, š, Ž, ž, Œ, œ a Ÿ, které jsou potřebné pro francouzštinu, finštinu a estonštinu.
Jednotlivé části ISO 8859 byly navrženy tak, aby podporovaly příbuzné jazyky, které používají stejná písmena s diakritikou, takže znaky potřebné pro jeden jazyk jsou obvykle obsaženy v jedné části. Existují však některé znaky a kombinace jazyků, které vyžadují přepínání mezi znakovými sadami podle ISO/IEC 2022. Standard byl vytvářen tak, aby konverze byly co nejjednodušší. Například všech sedm speciálních znaků používaných v němčině je ve všech variantách ISO/IEC 8859 (1–4, 9, 10, 13–16) na stejných pozicích a na mnoha pozicích se znaky v různých sadách liší pouze diakritickými znaménky. Speciálně varianty 1–4 byly navrženy společně a vyznačují se tím, že pokud se určitý znak vyskytuje ve více sadách, má ve všech stejný kód.
Tabulka
Porovnání jednotlivých kódování (1–16) ISO/IEC 8859
Na pozici 0xA0 je vždy nezlomitelná mezera, na pozici 0xAD je většinou měkké rozdělovací znaménko, který se zobrazuje pouze na koncích řádků.
Zeleně podbarvená pole jsou nepřiřazená.
Žlutě podbarvená pole jsou nově přidané znaky podle ISO/IEC 8859-7:2003 a ISO/IEC 8859-8:1999. LRM je značka přepínající směr psaní zleva doprava (U+200E), RLM zprava doleva (U+200F).
Vztah k Unicode a UCS
Od roku 1991 Unicode Consortium společně s ISO a IEC vyvíjí Univerzální znakovou sadu (UCS) Unicode/ISO/IEC 10646. Novější vydání ISO/IEC 8859 popisují znaky pomocí Unicode/UCS jmen a kódů tvaru U+nnnn, což umožňuje vnímat jednotlivé části ISO/IEC 8859 jako kódovací schéma pro Unicode/UCS znaky, které převádí znaky z malých částí UCS na osmibitové kódy. Prvních 256 znaků Unicode a UCS je identických s ISO/IEC-8859-1 (Latin-1).
V 90. letech 20. století byly oblíbené jednobytové znakové sady včetně kódování ISO/IEC 8859 a kódování z nich odvozených, protože byly snadno implementovatelné a dobře známé: fakt, že jeden znak je kódován jedním bytem a zabírá jednu pozici na displeji, usnadňuje programování a dostačuje pro většinu aplikací umožňujících používat jediný jazyk a existují ne kombinační znaky nebo variantní tvary. Od doby, kdy se více rozšířily operační systémy podporující Unicode, používání ISO/IEC 8859 a dalších starších kódování pokleslo. Zatímco zbytky ISO 8859 a jednobytových znakových modelů jsou hluboce zakořeněné v mnoha operačních systémech, programovacích jazycích, systémy pro ukládání dat, síťových aplikacích, videoadaptérech i aplikačním softwaru pro koncové uživatele, většina moderních aplikací používá interně Unicode a pro převody kódování mezi Unicode a jinými kódy vyžaduje konverzní tabulky.
Vývojový status
Řadu standardů ISO/IEC 8859 vyvíjela pracovní skupina ISO/IEC Joint Technical Committee 1, Subcommittee 2, Working Group 3 (ISO/IEC JTC 1/SC 2/WG 3). V červnu 2004 byla pracovní skupina WG 3 rozpuštěna a její úkoly byly přeneseny na SC 2. Vývoj standardu ISO/IEC 8859 byl ukončen, protože jediná zbývající pracovní skupina, WG 2, se soustřeďuje na vývoj univerzální kódované znakové sady – Unicode.
Odkazy
Reference
V tomto článku byl použit překlad textu z článku ISO/IEC 8859 na anglické Wikipedii.
PDF verze posledních pracovních verzí některých částí ISO/IEC 8859 jak byly předloženy ISO/IEC JTC 1/SC 2/WG 3 pro revizi a publikaci jsou dostupné na WWW serveru WG 3:
ISO/IEC 8859-1:1998 – Osmibitové jednobytové kódované grafické znakové sady, Část 1: Latinská abeceda čís. 1 (pracovní verze datovaná 12. února 1998, publikováno 15. dubna 1998)
ISO/IEC 8859-4:1998 – Osmibitové jednobytové kódované grafické znakové sady, Část 4: Latinská abeceda čís. 4 (pracovní verze datovaná 12. února 1998, publikováno 1. července 1998)
ISO/IEC 8859-7:1999 – Osmibitové jednobytové kódované grafické znakové sady, Část 7: Latinská/řecký abeceda (pracovní verze datovaná 10. června 1999; nahrazený novější verzí ISO/IEC 8859-7:2003, publikováno 10. října 2003)
ISO/IEC 8859-10:1998 – Osmibitové jednobytové kódované grafické znakové sady, Část 10: Latinská abeceda čís. 6 (pracovní verze datovaná 12. února 1998, publikováno 15. července 1998)
ISO/IEC 8859-11:1999 – Osmibitové jednobytové kódované grafické znakové sady, Část 11: Latinka/thajská znaková sada (pracovní verze datovaná 22. června 1999; nahrazena novější verzí ISO/IEC 8859-11:2001 publikovanou 15. prosince 2001)
ISO/IEC 8859-13:1998 – Osmibitové jednobytové kódované grafické znakové sady, Část 13: Latinská abeceda čís. 7 (pracovní verze datovaná 15. dubna 1998, publikováno 10. října 1998)
ISO/IEC 8859-15:1998 – Osmibitové jednobytové kódované grafické znakové sady, Část 15: Latinská abeceda čís. 9 (pracovní verze datovaná 1. srpna 1997; nahrazený novější verzí ISO/IEC 8859-15:1999, publikováno 15. března 1999)
ISO/IEC 8859-16:2000 – Osmibitové jednobytové kódované grafické znakové sady, Část 16: Latinská abeceda čís. 10 (pracovní verze datovaná 15. listopadu 1999; nahrazený novější verzí ISO/IEC 8859-16:2001, publikováno 15. července 2001)
Standardy Ecma International, které úmyslně přesně odpovídají standardům ISO/IEC 8859 znakových sad, jsou následující:
Standard ECMA-94: Osmibitové jednobytové kódované znakové sady – Latinské abecedy čís. 1 až 4, 2. vydání (červen 1986)
Standard ECMA-113: Osmibitové jednobytové kódované znakové sady – Latinka/cyrilice 3. vydání (prosinec 1999)
Standard ECMA-114: Osmibitové jednobytové kódované znakové sady – Latinka/arabská abeceda 2. vydání (prosinec 2000)