ウェイバックマシンWayback Machine)は、インターネット上のWorld Wide Webやその他情報を扱うデジタルアーカイブアメリカ合衆国カリフォルニア州サンフランシスコにある非営利団体インターネットアーカイブ2001年にサービスを開始した。


2001年、インターネットアーカイブの創設者であるブリュースター・ケールブルース・ギリアット英語版がウェブサイトのコンテンツが閉鎖やサイトリニューアルなどで消失する問題に対処するために立ち上げた[3]。このサービスでユーザーは「three dimensional index」と呼ばれる時間別のウェブページアーカイブを閲覧することができる[4]

「Wayback Machine」の名はアニメーション作品「ロッキーとブルウィンクルの大冒険」に登場するキャラクターのミスター・ピーボディとシャーマンが使用する「WABACマシン」(WABACはウェイバックと発音)というタイムトラベルマシンが由来である[5][6]。シリーズ作品の1つである「Peabody's Improbable History」では日常的にWABACマシンを使って度々有名な歴史上の出来事を目の当たりにするだけでなく直接的に関与し改変したりしている。

ウェブページのキャッシュをアーカイブする作業は5年後に一般公開することを目標に1996年から始まっている。 1996年から2001年まで、集められた情報は不完全ながらデータベースとしてデジタルテープで保存されていて、ケールは研究者や科学者がアクセスできるようにしていた[7]。アーカイブが5周年を迎えた2001年に一般公開を迎え、カリフォルニア大学バークレー校にて記念式典が行われた[8]。サービス開始時点で既にアーカイブページが10億ページ以上に及んでいた[9]


2024年10月9日、親パレスチナ派のハクティビスト集団「SN_BlackMeta」からのDDoS攻撃によって3100万人分の利用者情報(ユーザー名、メールアドレス、暗号化されたパスワードなど)が流出、Internet Archive運営は「Wayback Machine」などのサービスをオフラインにし利用停止状態となった[12][13][14]

2024年10月14日、「Wayback Machine」が暫定的に読み取り専用モードで復旧し[15]、11月4日に保存機能が復旧した[16]


ウェブをクロールし、一般にアクセスできるWorld Wide Webページの全て、Gopherヒエラルキー、ネットニュース(Usenet)掲示板システム、ダウンロード可能なソフトウェアを収集するために開発されたソフトウェアが「クローラー」である[17]。「クローラー」によって収集された情報はインターネット上にある情報が全て含まれているわけではなく公開者によって制限されているかアクセスできないデータベースに保存されているデータがある。部分的にキャッシュされたウェブサイトの矛盾を解決するために、2005年にインターネットアーカイブがArchive-It.orgという機関やコンテンツ制作者がデジタルコンテンツコレクションを収集して保存しデジタルアーカイブを作成するシステムを開発した[18]

クロールは様々なソースで構築されていて一部は第三者から移入されたものやアーカイブによって内部生成されたものもある[11]。たとえばアルフレッド・P・スローン財団アレクサ・インターネットが構築したクロールやアメリカ国立公文書記録管理局インターネット・メモリー財団英語版の代理としてインターネットアーカイブが運用しているクロールや、コモン・クロールのミラーがある[11]。2010年より「Worldwide Web Crawls」が作動していて世界中のウェブをキャプチャーしている[19][11]

スナップショットの取得頻度はウェブサイトによって異なっていて[11]、「Worldwide Web Crawls」内のウェブサイトはクロール毎に一回アーカイブされたサイトがある「クロールリスト」に含まれている[11]。たとえば「Wide Crawl Number 13」は2015年1月9日に始まり、2016年7月11日に完成した[20]。しかし、複数のクロールがある時点で同時進行していることがあり、また特定のサイトが複数のクロールリストに含まれるため、サイトのクロール頻度が大きく異なることが多い[11]


長年に渡る技術発展のように、ウェイバックマシンのストレージ容量は増大している。一般公開から2年後の2003年時点で、ウェイバックマシンの容量は月に12TB(テラ バイト)増加している。データはインターネットアーカイブ職員がカスタムデザインしたPetaBoxラックシステムに保存されている。最初の100TBのラックは2004年6月に本格稼働したが、間もなくさらなる容量のストレージが必要になることが判明した[21][22]

2009年にインターネットアーカイブは自身のカスタマイズしたストレージアーキテクチャをSun Open Storage英語版に移行し、サン・マイクロシステムズのカリフォルニアキャンパスにあるSun Modular Datacenterの新たなデータセンターで管理することになった[23]。2009年時点で、ウェイバックマシンは約3PB(約3000TB)のデータで構成されていて、毎月100TB(0.1PB)(ペタ バイト)の割合で増加していた[24]


2013年1月、URLが2,400億に達したと発表した[28]。同年10月、ユーザーがURLを入力するだけでウェブサイトをアーカイブできる「Save a Page」機能を発表したが[29]、この機能は悪意あるバイナリをダウンロードさせる手口に悪用される脅威となった[30][31]










ウェイバックマシンの年別 アーカイブページ数


歴史的に、ウェイバックマシンはRobots Exclusion Standard(robots.txt)の設定でウェブサイトをクロールできるかできないか、既にクロールされているか、そのウェブサイトのアーカイブが一般向けに閲覧できるかを判断している。ウェブサイト管理者は任意でrobots.txtを使ってウェイバックマシンをオプトアウトするか設定できる。robots.txtの設定を遡及的に適用していて、もしインターネットアーカイブをブロックしている場合、そのドメインから過去にアーカイブされたページも直ちに利用できなくなる。加えて、インターネットアーカイブは「時々ウェブサイト管理者が、我々に直接連絡したり、サイトのクロールやアーカイブを止めるように求めることがあり、この要求に我々は従っている。」と声明している[43]。さらに、「インターネットアーカイブは自身の資料をコレクションに追加することを望まない人のウェブサイトやその他インターネットドキュメントを保存したり提供することは考えていない。」とも述べている[44][45]

Oakland Archiveの規定

Waybackの遡及的除外規定は2002年にカリフォルニア大学バークレー校の情報管理学部が出した、ウェブサイト管理者がサイトのアーカイブへのアクセスを阻止する権利について書かれている「Recommendations for Managing Removal Requests and Preserving Archival Integrity」の一部に基づいている[46]。Waybackは高額訴訟を避けるためにこの規定を遵守している[47]












Netbula LLC v. Chordiant Software Inc.

2009年の訴訟である「Netbula, LLC v. Chordiant Software Inc.」では被告のChordiantはNetbulaにウェイバックマシンが遡ってNetbulaのサイトのアーカイブページの過去版へのアクセスを不能にしているとしてウェブサイトに置かれたrobots.txtの強制的な撤去を求めた。そのページにはChordiantがこの訴訟で有利になる材料があると考えていた[62]




2004年10月の訴訟である、「Telewizja Polska USA, Inc. v. Echostar Satellite」, No. 02 C 3293, 65 Fed. R. Evid. Serv. 673(N.D. Ill. October 15, 2004)は、訴訟の当事者がウェイバックマシンのアーカイブを有効な証拠の典拠とした初めての裁判とされている。Telewizja PolskaはTVPポロニア英語版のプロバイダでエコースター英語版ディッシュ・ネットワークを運営している。裁判の手続きの前に、エコースターはTelewizja Polskaウェブサイトの過去のコンテンツの証拠になるウェイバックマシンのスナップショットを提出しようとしたが、Telewizja Polskaは伝聞証拠禁止の原則や認証されていない典拠であることを理由にスナップショットを採用しないように予備的申し立て英語版を行ったが、アランダー・キーズ判事はTelewizja Polskaによる伝聞証拠禁止の原則の主張を退け、TVPの裁判での証拠としての除外を求める予備的申し立てを認めなかった[64][65]










2002年後半、インターネットアーカイブはウェイバックマシンから新興宗教 サイエントロジーを批判する複数のサイトを削除した[70]。この時サイト所有者の要求により削除した旨のエラーメッセージが表示されたが[71]、その後実際に削除を要求したのはサイエントロジー教会 (enの弁護士でありサイト所有者は削除を望んでいなかったことが明らかになった[72]

Healthcare Advocates, Inc.

2003年、Harding Earley Follmer & Fraileyはウェイバックマシンを活用して商標問題からクライアントを弁護した。弁護士は数年前のウェブサイトの内容によって原告の主張は無効であることを論証することに成功した。原告のHealthcare Advocatesはデジタルミレニアム著作権法コンピュータ犯罪取締法英語版違反を含む著作権侵害を糾弾するために申し立ての相手にインターネットアーカイブを含む修正を申告した。また、Healthcare Advocatesは自身のウェブサイトにrobots.txtを導入して以降、最初の訴訟が提起された後もインターネットアーカイブはウェイバックマシンから自身のウェブサイトの過去のコピーを全て削除するべきなのに一部は未だに閲覧可能であると主張した[73]。この訴訟は法廷外で解決していて、その後ウェイバックマシンで問題が修正された[74]


活動家のスザンヌ・シェル英語版は2005年12月、1999年から2004年まで自身のウェブサイトの profane-justice.org をアーカイブしていたとして10万ドルの賠償を求めインターネットアーカイブを提訴した[75][76]。インターネットアーカイブは2006年1月20日、カリフォルニア北部地区連邦地方裁判所英語版にシェルの著作権を侵害していないという判決を求める確認訴訟英語版を起こした。これに対してシェルは自身の利用規約英語版に違反していると主張する形でインターネットアーカイブを反訴した[77]。2007年2月13日、コロラド州連邦地方裁判所英語版裁判官は契約違反を除き全ての反訴を退けた[76]。インターネットアーカイブはコピー行為により著作権侵害が生じたというシェルの主張を退けることは望まなかった[78]




Library Freedom Projectのアリソン・マクリーナ長官は「図書館員は個人のプライバシーは重視しているものの、検閲には強く反対している。」と述べている[53]






