ウィキブックスに
拡張子関連の解説書・教科書があります。
拡張子(、英: filename extension)とは、ファイルの種類を識別するためにファイル名の末尾につけられる文字列。
概要
通常、ファイル名の本体と拡張子は "."(ピリオド、ドット)で区切られる。拡張子はアルファベットと数字の組み合わせで、歴史的には3文字以内が好まれたが、4文字以上や2文字以下の場合もある。拡張子は、オペレーティングシステム (OS) においてファイルの判別のために任意につけられるもので、必ずしも必須ではない。拡張子が適切でない場合は、システムまたはアプリケーションソフトウェアの動作に影響を及ぼす場合がある。 .tar.gz
のように複数のピリオドで区切っているケースもあるが、最後のピリオド以降を拡張子と判断するシステムが一般的である。
Mac OSでは、OSレベルでは各ファイルに埋め込まれたクリエータとファイルタイプで識別するシステムを持っている。macOSでは拡張子も利用して動作するようになり、Mac OS X v10.4 TigerからはUniform Type Identifier (UTI) なる枠組みでデータの種類を判別するようになった。
Unix系OSではファイル名の終端でファイルの種類を表す慣習があり、一般にはsuffixと呼ぶが、必ずしもピリオドで区切るとは限らない。カンマで区切る「,v
」(バージョンの差分情報などを格納するRCSファイルの末尾につけられる[1])や、特に区切り文字を使わずに「-
」や「~
」や「rc
」を付けるケースもある。これはあくまでも整理上の便宜であってシステム上意味はない。ただしmakeコマンドがsuffixに基づいたルールに従って動作したり、lsコマンドが色分けして表示するようなケースはある。またデスクトップ環境であるKDE、GNOME、CDE等も拡張子に基づく動作をする。
OS以外では、MIMEタイプの設定に拡張子を利用していることなどがあげられる。Apache HTTP Serverはindex.ja.html
とindex.html.ja
の両方を「日本語(ja)のhtmlファイル」と判断する。最後尾でなくても拡張子として判断する一例である。
こうしたことから、かつては一部のシステムのみの概念だった拡張子は、現在は広い範囲で使われていることがわかる。
拡張子の由来
拡張子は、もともとはDECのオペレーティングシステム (OS) 、たとえば、TOPS-10、OS/8やRT-11に利用されていた。その後、CP/Mでも採用された。CP/Mのファイル名は8+3バイトの構成になっており、後ろの3バイトが拡張子と呼ばれた。さらにCP/Mと互換性を取るため、MS-DOSやOS/2、Windowsなどに受け継がれた。現在のWindowsでは3バイトの制限はない。
拡張子の一例
- bmp
- Windowsビットマップ。Windowsの標準的な静止画像ファイル。
- wav
- WAVE。Windowsの標準的な音声ファイル。
- avi
- Audio Video Interleave。主にWindowsで使われる動画ファイル。
- txt
- 一般的なテキストファイル。
- zip
- ZIPファイルフォーマット。データ圧縮やアーカイブ目的で使用される。
- pdf
- PDF。アドビが開発した文書ファイルフォーマット。
拡張子が引き起こすセキュリティ上の問題
Windowsには、拡張子とアプリケーションの関連付けという機能があり、拡張子の種類によってそのファイルを処理するアプリケーションを選択することが可能である。ただし、設定次第でファイル名の拡張子を表示しないようにできるため、コンピュータウイルスなどがこれを悪用する場合がある。例えばLOVE-LETTER-FOR-YOU.TXT.vbsという名前のファイルはそのような環境ではLOVE-LETTER-FOR-YOU.TXTとのみ表示され、一見テキストファイルに見える。これをテキストファイルだと思って実行すると、実際にはVBScriptが起動し、ウイルスなどの被害に遭う。
また、一部のWindowsではUnicodeの制御文字の一つであるU+202E (RIGHT-TO-LEFT OVERRIDE) をファイル名に使用することで、拡張子を末尾以外の場所に表示させることが可能である。例えばSAMPLE-(U+202E)TXT.EXEというファイル名はSAMPLE-EXE.TXTと表示され、一見テキストファイルに見える。これをテキストファイルだと思って実行すると、実際にはEXEファイルが実行されることになり、前記同様の問題が発生する。このように、拡張子を誤読させる他要因との複合技で問題を生ずることもある。
脚注
関連項目
外部リンク