Набор сімвалаў (англ.: character set) — табліца, якая задае кадзіроўку канчатковага мноства сімвалаў алфавіта (звычайна элементаў тэксту: літар, лічбаў, знакаў пунктуацыі). Такая табліца апісвае адпаведнасць кожнаму сімвалу паслядоўнасць даўжынёй у адзін ці некалькі сімвалаў іншага алфавіта (кропак і працяжнікаў у кодзе Морзэ, сігнальных флагаў на флоце, нулёў і адзінак (бітаў) у камп’ютары).
Набор сімвалаў у камп’ютары
Сімвалы ў камп’ютары звычайна кадуюцца адным ці некалькімі байтамі (групамі з васьмі бітаў).
Хоць тэрмін «набор сімвалаў» (англ.: character set, charset), узаконены інтэрнэт-стандартам RFC 2278, зараз з’яўляецца найбольш аўтарытэтным, папярэдні яму тэрмін «кадзіроўка» (англ.: encoding) па-ранейшаму ўжываецца ў якасці сіноніма, у прыватнасці, у мовах праграміравання Java[1], Perl[2] і XSLT[3], а таксама ў HTML[4].
Часам таксама замест тэрміна «набор сімвалаў» памылкова ўжываюць тэрмін «кодавая старонка», які пазначае на самой справе асобны выпадак набору сімвалаў у аднабайтным кадаванем.
У цяперашні час галоўным чынам выкарыстоўваюцца кадзіроўкі трох тыпаў: сумяшчальныя з ASCII, сумяшчальныя з EBCDIC і заснаваныя на Унікодзе 16-бітныя, з пераважаннем першых. Уяўленне UTF-8 Унікода сумяшчальна з ASCII. Кадыроўкі на базе EBCDIC (напрыклад, ДКОИ-8 (руск.) (бел.) ужываюцца толькі на некаторых мэйнфрэймах. Першапачаткова ў кожнай аперацыйнай сістэме ўжываўся адзін набор сімвалаў. Цяпер наборы сімвалаў стандартызаваныя[5], залежаць ад тыпу аперацыйнай сістэмы толькі па традыцыі і ўсталёўваюцца згодна лакалі.
У Вікіпедыі і іншых праектах Фонду Вікімедыя ўжываецца Унікод UTF-8.
Распаўсюджаныя кадзіроўкі
- ISO 646
- BCDIC
- EBCDIC
- ISO 8859:
- ISO 8859-1, ISO 8859-2, ISO 8859-3, ISO 8859-4, ISO 8859-5, ISO 8859-6, ISO 8859-7, ISO 8859-8, ISO 8859-9, ISO 8859-10, ISO 8859-11, ISO 8859-13, ISO 8859-14, ISO 8859-15
- CP437, CP737, CP850, CP852, CP855, CP857, CP858, CP860, CP861, CP863, CP865, CP866, CP869
- Кадыроўкі Microsoft Windows:
- MacRoman, MacCyrillic
- КОИ8 (KOI8-R, KOI8-U…), КОИ-7
- Балгарская кадзіроўка
- ISCII
- VISCII
- Big5 (найбольш вядомы варыянт Microsoft CP950)
- Guobiao
- Shift JIS для японскай мовы (Microsoft CP932)
- EUC-KR для карэйскай мовы (Microsoft CP949)
- ISO-2022 и EUC для кітайскай пісьменнасці
- Кадыроўкі UTF-8, UTF-16 і UTF-32 набора сімвалаў Унікод
Гл. таксама
Зноскі