Table des caractères Unicode U+0080 à U+00FF (128 à 255 en décimal).
Commandes C1 et latin étendu – 1 (Unicode 1.0.0)
Suppléments à l’alphabet latin basique, pour les langues européennes occidentales les plus courantes.
Comme les 256 premiers codes d’Unicode sont basés sur la norme ISO/CEI 8859-1, les caractères Unicode 128 à 159 (surlignés en rouge dans le tableau) ne sont pas utilisés comme caractères graphiques, car ils correspondent à des caractères de contrôle haut (du jeu de contrôle C1) ou de commandes (formalisés dans la norme ISO 6429) présents dans tous les jeux ISO/CEI 8859. Leur usage en tant que caractères Unicode est déconseillé, leur transcription n’étant pas normalisée (en dehors du caractère de contrôle nouvelle ligne (NEL, U+0085) pour préserver la compatibilité des textes transcodés de l’EBCDIC à ISO 8859 ou Unicode).
Note : le caractère U+00AD est un caractère de contrôle de format (indiquant une position possible de césure), normalement invisible dans une ligne de texte ou au milieu d'un mot (ce caractère n'a aucune valeur orthographique et devrait être ignoré lors de la recherche de mots). La césure pourra être rendue visible en cas de coupure de ligne, généralement au moyen d'un tiret ajouté en fin de ligne juste avant la position de césure (cependant le glyphe utilisé dans ce cas, et sa position peuvent dépendre de la langue utilisée).
Table des caractères
Historique
Version initiale Unicode 1.0.0
C'est la version actuelle, qui n’a pas été modifiée depuis. Elle est basée sur la première variante latine de la norme ISO/CEI 8859 (étendu avec le jeu de contrôles C1 dont la plupart sont issus initialement du codage EBCDIC réencodés pour être compatibles avec les normes ISO 646 et ISO/CEI 8859), dont elle reprend le codage sur 8 bits avec une identité des valeurs numériques des points de code Unicode/ISO/IEC 10646 et des valeurs des codets des anciennes normes.
Voir aussi
Liens externes
Articles connexes
Blocs de caractères Unicode contenant des signes de ponctuation
[ modifier ]
Blocs de caractères Unicode contenant des symboles monétaires
[ modifier ]
Blocs de caractères Unicode contenant des signes ou symboles mathématiques
[ modifier ]
Blocs de caractères Unicode contenant des chiffres ou nombres
[ modifier ]
Blocs de caractères Unicode pour l’écriture latine
[ modifier ]
Caractères ajoutés dans Unicode 1.0.0 (partiellement obsolète)
[1][ modifier ]
Nouveaux blocs ajoutés (normalisés plus tard après l’unification de la norme ISO/CEI 10646-1 avec le standard Unicode 2.0) :
- Commandes C0 et latin de base
- Commandes C1 et latin étendu – 1
- Latin étendu – A
- Latin étendu – B
- Latin étendu – alphabet phonétique international
- Lettres modificatives avec chasse
- Diacritiques
- Grec et copte (codage Unicode 1.0.0 partiellement obsolète, car 13 caractères ont ensuite été supprimés ou redéfinis dans Unicode 1.1, même si 4 caractères ont été réintroduits et normalisés à l’identique dans Unicode 3.0)
- Cyrillique (codage Unicode 1.0.0 partiellement obsolète, car 4 caractères ont ensuite été supprimés dans Unicode 1.1), même si ces caractères ont été réintroduits et normalisés à l’identique dans Unicode 3.2)
- Arménien
- Hébreu
- Arabe
- Dévanâgarî
- Bengalî
- Gourmoukhî
- Goudjarati (ou gujarâtî)
- Oriyâ (ou odia)
- Tamoul
- Télougou
- Kannara (ou kannada)
- Malayâlam
- Thaï (codage Unicode 1.0.0 partiellement obsolète, car des caractères ont ensuite été standardisés différemment dans Unicode 1.1)
- Lao (ou laotien) (codage Unicode 1.0.0 partiellement obsolète, car des caractères ont ensuite été standardisés différemment dans Unicode 1.1)
- Tibétain (codage Unicode 1.0.0 obsolète, car tous ces caractères initialement définis de U-1000 à U-104F ont ensuite été supprimés dans Unicode 1.1 (remplacé en Unicode 3.0 par le bloc « Birman » ; les caractères tibétains ont ensuite été normalisés différemment dans un nouveau bloc ajouté dans Unicode 2.0)
- Géorgien – assomtavrouli et mkhédrouli
- Ponctuation générale
- Exposants et indices
- Symboles monétaires
- Signes combinatoires pour des symboles
- Symboles de type lettre
- Formes numérales
- Flèches
- Opérateurs mathématiques
- Signes techniques divers (codage Unicode 1.0.0 partiellement obsolète, car 2 caractères ont ensuite été supprimés dans Unicode 1.0.1)
- Pictogrammes de commande
- Reconnaissance optique de caractères (OCR)
- Symboles alphanumériques délimités
- Filets
- Pavés
- Formes géométriques
- Symboles divers
- Casseau
- Symboles et ponctuations unifiés CJC
- Hiragana
- Katakana
- Bopomofo
- Hangûl (ou hangeul) – jamos de compatibilité
- Kanboun
- Lettres et mois unifiés CJC délimités
- Compatibilité CJC
- Hangûl (ou hangeul) – syllabes coréennes (codage Unicode 1.0.0 partiellement obsolète, car tous ces caractères ont été initialement publiés sans noms standardisé qui ont ensuite été définis dans Unicode 1.1)
- Zone à usage privée (codage Unicode 1.0.0 partiellement obsolète, car le bloc initialement défini de U+E800 à U-FDFF a ensuite été réajusté de U+E000 à U-F7FF dans un erratum publié en annexe dans Unicode 1.0.1)
- Formes de compatibilité unifiés CJC
- Petites variantes de forme
- Formes de présentation arabes – B
- Formes de demi-chasse et de pleine chasse
- Caractères spéciaux (codage Unicode 1.0.0 partiellement obsolète, car 1 caractère a été initialement codé dans Unicode 1.0.0 avec un nom standardisé qui a ensuite été modifié dans Unicode 1.0.1)
Notes et références