特殊用途文字 (Unicodeのブロック)
特殊用途文字 (とくしゅようともじ 英語 : Specials )は、Unicode においてU + FFF0 〜 FFFFの基本多言語面 の最後に割り当てられる短いブロックである。 これらの16個のコードポイントのうち、5個がUnicode 3.0以降に割り当てられている。
概要
U+FFF9 interlinear annotation anchor
注釈付きテキストの開始を示す。
U+FFFA interlinear annotation separator
注釈文字の開始
U+FFFB interlinear annotation terminator
注釈ブロックの終わり
U+FFFC  object replacement character
複合ドキュメント など、指定されていない別のオブジェクトのテキスト内を置換する記号
U+FFFD � replacement character
不明な文字、認識できない文字、表現できない文字を置き換えるために使用される
U+FFFE <noncharacter-FFFE>
非文字
U+FFFF <noncharacter-FFFF>
非文字
FFFEとFFFFは通常の意味で割り当てられていないが、Unicode文字ではないこと が保証されている。これらはテキストの符号化を推測するために使用できる。これらの文字を含むテキストはすべて、正しく符号化されたUnicodeテキストではないとされる。Unicodeの U+FEFF byte order mark 文字をUnicodeテキストの先頭に挿入してエンディアン を示すことができる。そのようなテキストを読み取り、0xFFFEに遭遇したプログラムは、次のすべての文字の符号の順序を切り替える必要があることを認識する。
置換文字
�(多くの場合、白い疑問符の付いた黒い菱形または空の四角)は、 Unicode 規格のSpecials においてコードポイントU + FFFDに割り当てられている記号であり、システムがデータ内の文字列を正しいシンボルにレンダリングできない場合の問題を示すために使用される。通常はデータが無効であるか、どの文字とも一致しない場合に表示される。
仮に、UTF-8 での入力を想定したテキストエディタで、ISO-8859-1 エンコード( 0x66 0xFC 0x72
)でドイツ語の単語 "für"を含むテキストファイルを開いたとする。最初と最後のバイトはASCII において有効なUTF-8エンコードであるが、中間のバイト( 0xFC
)はUTF-8で有効なバイトではない。したがって、テキストエディターはこのバイトを置換文字記号に置き換えて、有効なUnicode コードポイント の文字列を生成できる。このときf�rと表示される。さらに、この状態でファイルの保存を行ったとき、正しく実装されていないテキストエディタにおいては、この置換文字符号のコードポイントが(UTF-8形式で)保存される可能性がある。このときテキストファイルのデータは0x66 0xEF 0xBF 0xBD 0x72
となり、ISO-8859-1では「fï¿1/2r」として表示される(文字化け を参照)。置換はすべてのエラーで同じであるため、元の文字を復元することはできない。
文字コード表
歴史
以下に示す文書群は、Specialsブロックに特定の文字を定義する目的と過程を示したものである。
バージョン
コードポイント[ a]
文字数
UTC ID
L2 ID
WG2 ID
ドキュメント
1.0.0
U+FFFD
1
(to be determined)
U+FFFE..FFFF
2
(to be determined)
L2/01-295R
Moore, Lisa (2001-11-06), Minutes from the UTC/L2 meeting #88
L2/01-355
N2369 (html , doc )
Davis, Mark (2001-09-26), Request to allow FFFF, FFFE in UTF-8 in the text of ISO/IEC 10646
L2/02-154
N2403
Umamaheswaran, V. S. (2002-04-22), Draft minutes of WG 2 meeting 41, Hotel Phoenix, Singapore, 2001-10-15/19
2.1
U+FFFC
1
UTC/1995-056
Sargent, Murray (1995-12-06), Recommendation to encode a WCH_EMBEDDING character
UTC/1996-002
Aliprand, Joan; Hart, Edwin; Greenfield, Steve (1996-03-05), UTC #67 Minutes
N1365
Sargent, Murray (1996-03-18), Proposal Summary – Object Replacement Character
N1353
Umamaheswaran, V. S.; Ksar, Mike (1996-06-25), Draft minutes of WG2 Copenhagen Meeting # 30
L2/97-288
N1603
Umamaheswaran, V. S. (1997-10-24), Unconfirmed Meeting Minutes, WG 2 Meeting # 33, Heraklion, Crete, Greece, 20 June – 4 July 1997
L2/98-004R
N1681
Text of ISO 10646 – AMD 18 for PDAM registration and FPDAM ballot , (1997-12-22)
L2/98-070
Aliprand, Joan; Winkler, Arnold, Minutes of the joint UTC and L2 meeting from the meeting in Cupertino, February 25-27, 1998
L2/98-318
N1894
Revised text of 10646-1/FPDAM 18, AMENDMENT 18: Symbols and Others , (1998-10-22)
3.0
U+FFF9..FFFB
3
L2/97-255R
Aliprand, Joan (1997-12-03), Approved Minutes – UTC #73 & L2 #170 joint meeting, Palo Alto, CA – August 4-5, 1997
L2/98-055
Freytag, Asmus (1998-02-22), Support for Implementing Inline and Interlinear Annotations
L2/98-070
Aliprand, Joan; Winkler, Arnold, Minutes of the joint UTC and L2 meeting from the meeting in Cupertino, February 25-27, 1998
L2/98-099
N1727
Freytag, Asmus (1998-03-18), Support for Implementing Interlinear Annotations as used in East Asian Typography
L2/98-158
Aliprand, Joan; Winkler, Arnold (1998-05-26), Draft Minutes – UTC #76 & NCITS Subgroup L2 #173 joint meeting, Tredyffrin, Pennsylvania, April 20-22, 1998
L2/98-286
N1703
Umamaheswaran, V. S.; Ksar, Mike (1998-07-02), Unconfirmed Meeting Minutes, WG 2 Meeting #34, Redmond, WA, USA; 1998-03-16--20
L2/98-270
Hiura, Hideki; Kobayashi, Tatsuo (1998-07-29), Suggestion to the inline and interlinear annotation proposal
L2/98-281R (pdf , html )
Aliprand, Joan (1998-07-31), Unconfirmed Minutes – UTC #77 & NCITS Subgroup L2 # 174 JOINT MEETING, Redmond, WA -- July 29-31, 1998
L2/98-363
N1861
Sato, T. K. (1998-09-01), Ruby markers
L2/98-372
N1884R2 (pdf , doc )
Whistler, Ken (1998-09-22), Additional Characters for the UCS
L2/98-416
N1882.zip
Support for Implementing Interlinear Annotations , (1998-09-23)
L2/98-329
N1920
Combined PDAM registration and consideration ballot on WD for ISO/IEC 10646-1/Amd. 30, AMENDMENT 30: Additional Latin and other characters , (1998-10-28)
L2/98-421R
Suignard, Michel; Hiura, Hideki (1998-12-04), Notes concerning the PDAM 30 interlinear annotation characters
L2/99-010
N1903 (pdf , html , doc )
Umamaheswaran, V. S. (1998-12-30), Minutes of WG 2 meeting 35, London, U.K.; 1998-09-21--25
L2/98-419 (pdf , doc )
Aliprand, Joan (1999-02-05), Approved Minutes -- UTC #78 & NCITS Subgroup L2 # 175 Joint Meeting, San Jose, CA -- December 1-4, 1998
UTC/1999-021
Duerst, Martin; Bosak, Jon (1999-06-08), W3C XML CG statement on annotation characters
L2/99-176R
Moore, Lisa (1999-11-04), Minutes from the joint UTC/L2 meeting in Seattle, June 8-10, 1999
L2/01-301
Whistler, Ken (2001-08-01), Analysis of Character Deprecation in the Unicode Standard
^ 提案されたコードポイントと文字の名前は、最終決定と異なる場合がある。
参照
参考文献