ウェイバックマシン

インターネットアーカイブが運営するウェブアーカイブサイト

ウェイバックマシンWayback Machine)は、インターネット上のWorld Wide Webやその他情報を扱うデジタルアーカイブアメリカ合衆国カリフォルニア州サンフランシスコにある非営利団体インターネットアーカイブ2001年にサービスを開始した。

ウェイバックマシン
Wayback Machine
スクリーンショット
URLweb.archive.org ウィキデータを編集
言語英語
タイプアーカイブ
事業地域世界中(中国とロシアを除く)
運営者Internet Archive
登録任意
開始2001年10月24日 (22年前) (2001-10-24)[1][2]
現在の状態運営中
プログラミング言語Java, Python

歴史

2001年、インターネットアーカイブの創設者であるブリュースター・ケールブルース・ギリアット英語版がウェブサイトのコンテンツが閉鎖やサイトリニューアルなどで消失する問題に対処するために立ち上げた[3]。このサービスでユーザーは「three dimensional index」と呼ばれる時間別のウェブページアーカイブを閲覧することができる[4]。ケールとギリアットはインターネットの全てをアーカイブすることと「全ての知識へのユニバーサルアクセス」を提供することを目標にウェイバックマシンを開発した[5]

「Wayback Machine」の名はアニメーション作品「ロッキーとブルウィンクルの大冒険」に登場するキャラクターのミスター・ピーボディとシャーマンが使用する「WABACマシン」(WABACはウェイバックと発音)というタイムトラベルマシンが由来である[6][7]。シリーズ作品の1つである「Peabody's Improbable History」では日常的にWABACマシンを使って度々有名な歴史上の出来事を目の当たりにするだけでなく直接的に関与し改変したりしている。

ウェブページのキャッシュをアーカイブする作業は5年後に一般公開することを目標に1996年から始まっている。1996年から2001年まで、集められた情報は不完全ながらデータベースとしてデジタルテープで保存されていて、ケールは研究者や科学者がアクセスできるようにしていた[8]。アーカイブが5周年を迎えた2001年に一般公開を迎え、カリフォルニア大学バークレー校にて記念式典が行われた[9]。サービス開始時点で既にアーカイブページが10億ページ以上に及んでいた[10]

データはインターネットアーカイブが所有するLinuxノードの大規模クラスタに保存されているが[5]、時折ウェブページに再アクセスし新しいバージョンをアーカイブしている(下部の技術的詳細参照)[11]。またウェイバックマシン側がウェブサイトを「クロール」して保存できる場合に手動で検索ボックスにウェブサイトのURLを入力してキャプチャーすることができる。

技術的詳細

ウェブをクロールし、一般にアクセスできるWorld Wide Webページの全て、Gopherヒエラルキー、ネットニュース(Usenet)掲示板システム、ダウンロード可能なソフトウェアを収集するために開発されたソフトウェアが「クローラー」である[12]。「クローラー」によって収集された情報はインターネット上にある情報が全て含まれているわけではなく公開者によって制限されているかアクセスできないデータベースに保存されているデータがある。部分的にキャッシュされたウェブサイトの矛盾を解決するために、2005年にインターネットアーカイブがArchive-It.orgという機関やコンテンツ制作者がデジタルコンテンツコレクションを収集して保存しデジタルアーカイブを作成するシステムを開発した[13]

クロールは様々なソースで構築されていて一部は第三者から移入されたものやアーカイブによって内部生成されたものもある[11]。たとえばアルフレッド・P・スローン財団アレクサ・インターネットが構築したクロールやアメリカ国立公文書記録管理局インターネット・メモリー財団英語版の代理としてインターネットアーカイブが運用しているクロールや、コモン・クロールのミラーがある[11]。2010年より「Worldwide Web Crawls」が作動していて世界中のウェブをキャプチャーしている[14][11]

スナップショットの取得頻度はウェブサイトによって異なっていて[11]、「Worldwide Web Crawls」内のウェブサイトはクロール毎に一回アーカイブされたサイトがある「クロールリスト」に含まれている[11]。たとえば「Wide Crawl Number 13」は2015年1月9日に始まり、2016年7月11日に完成した[15]。しかし、複数のクロールがある時点で同時進行していることがあり、また特定のサイトが複数のクロールリストに含まれるため、サイトのクロール頻度が大きく異なることが多い[11]

ストレージ容量と成長

長年に渡る技術発展のように、ウェイバックマシンのストレージ容量は増大している。一般公開から2年後の2003年時点で、ウェイバックマシンの容量は月に12TB(テラ バイト)増加している。データはインターネットアーカイブ職員がカスタムデザインしたPetaBoxラックシステムに保存されている。最初の100TBのラックは2004年6月に本格稼働したが、間もなくさらなる容量のストレージが必要になることが判明した[16][17]

2009年にインターネットアーカイブは自身のカスタマイズしたストレージアーキテクチャをSun Open Storage英語版に移行し、サン・マイクロシステムズのカリフォルニアキャンパスにあるSun Modular Datacenterの新たなデータセンターで管理することになった[18]。2009年時点で、ウェイバックマシンは約3PB(約3000TB)のデータで構成されていて、毎月100TB(0.1PB)(ペタ バイト)の割合で増加していた[19]

2011年、インターフェイスやアーカイブされたコンテンツの索引が更新されたウェイバックマシンの新しいかつ改善されたバージョンの公開テストが行われた[20]。同年3月、ウェイバックマシンフォーラムにて「ウェイバックマシン新バージョンのベータ版は2010年に全てのクロールされたデータのインデックスが更新されより完全なものとなり、定期的に更新を続けている。古いウェイバックマシンには2008年になっても僅かなデータしかなく、これ以上インデックスを更新する予定もなく、今年運用終了する予定である。」と発表された[21]。また2011年、インターネットアーカイブは6組のPetaBoxラックを導入したことで、ウェイバックマシンのストレージ容量は700TB(0.7PB)増加した[22]

2013年1月、URLが2,400億に達したと発表した[23]。同年10月、ユーザーがURLを入力するだけでウェブサイトをアーカイブできる「Save a Page」機能を発表したが[24]、この機能は悪意あるバイナリをダウンロードさせる手口に悪用される脅威となった[25][26]

2014年12月時点で、ウェイバックマシンはウェブページが4,350億、データ容量が約9PBとなり、週で20TB(0.02PB)増える割合になった[10][27][28]

2016年7月、データ容量が約15PBに達したと発表した[29]

2018年9月、データ容量が25PB以上に達した[30][31]

2020年12月、データ容量が70PB以上に達した[32]

2023年3月、ウェイバックマシンにアーカイブされているサイトの数が8000億に達した[33]

成長

2013年10月から2015年3月の間、アレクサの全世界ランクは163[34]から208[35]に推移している。

2022年8月にはページ数が7200億件を突破。

2023年中にはページ数が1兆に達すると言われている。

ウェイバックマシンの成長[36][37]
ウェイバックマシンの年別アーカイブページ数
2005
40,000,000,000
2008
85,000,000,000
2012
150,000,000,000
2013
373,000,000,000
2014
400,000,000,000
2015
452,000,000,000
2016
459,000,000,000
2017
279,000,000,000
2018
310,000,000,000
2019
345,000,000,000
2020
405,000,000,000
2021
514,000,000,000
2022
640,000,000,000

ウェブサイト除外規定

歴史的に、ウェイバックマシンはRobots Exclusion Standard (robots.txt)の設定でウェブサイトをクロールできるかできないか、既にクロールされているか、そのウェブサイトのアーカイブが一般向けに閲覧できるかを判断している。ウェブサイト管理者は任意でrobots.txtを使ってウェイバックマシンをオプトアウトするか設定できる。robots.txtの設定を遡及的に適用していて、もしインターネットアーカイブをブロックしている場合、そのドメインから過去にアーカイブされたページも直ちに利用できなくなる。加えて、インターネットアーカイブは「時々ウェブサイト管理者が、我々に直接連絡したり、サイトのクロールやアーカイブを止めるように求めることがあり、この要求に我々は従っている。」と声明している[38]。さらに、「インターネットアーカイブは自身の資料をコレクションに追加することを望まない人のウェブサイトやその他インターネットドキュメントを保存したり提供することは考えていない。」とも述べている[39][40]

Oakland Archiveの規定

Waybackの遡及的除外規定は2002年にカリフォルニア大学バークレー校の情報管理学部が出した、ウェブサイト管理者がサイトのアーカイブへのアクセスを阻止する権利について書かれている「Recommendations for Managing Removal Requests and Preserving Archival Integrity」の一部に基づいている[41]。Waybackは高額訴訟を避けるためにこの規定を遵守している[42]

しかし、2017年にWaybackの遡及的除外規定が緩和され、アメリカ合衆国の政府や軍のウェブサイト両方のrobots.txtの設定に従わずクロールを行いウェブページを閲覧できるようにした。2017年4月時点で、robots.txtの無視は拡大し米国政府のウェブサイトに留まらなくなっている[43][44][45][46]

利用

一般向けに利用開始された2001年以降、ウェイバックマシンによるデータの収集と保存方法やアーカイブにある現行のページに関して学者によって研究されている。2013年時点で、ウェイバックマシンに関する論文は約350件ありほとんどは情報技術、図書館科学、社会科学の分野で著されている。社会科学学者は1990年代から現在までの間のウェブサイト開発が企業の成長に与えた影響を分析するためにウェイバックマシンを活用している[10]

ウェイバックマシンがページをアーカイブした時、通常ほとんどのハイパーリンクが収集されておりネットの不安定性さが原因で壊れている可能性があってもそれらのリンクは保持される。インドの研究者はオンライン学術出版のハイパーリンクを保存するためのウェイバックマシンの能力の有効性を研究していて、実際保存されていたのはほぼ半分という結果を得た[47]

ジャーナリストも削除されたウェブサイトや日にちの経った報道記事を閲覧したりウェブサイトコンテンツに変えるためにウェイバックマシンを使用している。得られたコンテンツは政治家に説明責任を求め、論争の場での嘘を暴くことに活用されている[48]。2014年、ウクライナからの分離独立を目指す組織のトップであるイーゴリ・ストレルコフは自身のソーシャルメディアページでの投稿で、実際は民間のマレーシア航空機だったことが判明する前にウクライナ軍機と疑われる軍用機を自軍が撃墜したことを自慢していたものの、後にその投稿を削除しウクライナ軍が撃墜したと非難したがその削除した投稿がアーカイブに残っていた[48][49]。2017年、ホワイトハウスのウェブサイトから気候変動に関する全ての参照文献が削除されたことがArchive.orgの閲覧を通して発覚しこれがredditで議論になったことが科学のための行進英語版の原因となった。「科学者はワシントンでデモを起こす必要がある。」というユーザーのレスポンスがあった[50][51][52]

制限

ウェイバックマシンは多機能であるがいくつかの制限も存在する。2014年、ウェブサイトがクロールされてウェイバックマシンで閲覧できるようになるまで6ヶ月ものタイムラグがあった[53]。2018年時点ではタイムラグは3時間から10時間である[54]。ウェイバックマシンではユーザーがウェブサイトを閲覧するためにはURLを把握する必要がある[55]

またウェイバックマシンはウェブクローラーの制限により常に作成されたウェブページが全て収録されるわけではない上、FlashプラットフォームやJavaScriptで書かれたフォームといったインタラクティブ機能はホストウェブサイトとの対話が必要なため完全にアーカイブできない。ウェブクローラーはHTML(またその派生の一種)でコードされていないものを取り出すのが困難なため結果的にハイパーリンクが壊れたり画像が失われることも多い。さらに、ウェブクローラーは他のどのサイトからもリンクされていない「孤立ページ」をアーカイブすることもできない[56][55]。ウェイバックマシンの運用を定めた特定の規則によって設定されているハイパーリンクの深さ制限により全てのページの全ハイパーリンクをアーカイブすることもできない[14]

一部の管理者は自身のウェブサイトにrobots.txtというファイルを置くことでウェイバックマシンが発見しアーカイブすることを防いでいる。さらに、ウェブサイト管理者はインターネットアーカイブに直接問い合わせたりアーカイブからのページの削除を求めることもできる[56]

法的根拠

民事訴訟

Netbula LLC v. Chordiant Software Inc.

2009年の訴訟である「Netbula, LLC v. Chordiant Software Inc.」では被告のChordiantはNetbulaにウェイバックマシンが遡ってNetbulaのサイトのアーカイブページの過去版へのアクセスを不能にしているとしてウェブサイトに置かれたrobots.txtの強制的な撤去を求めた。そのページにはChordiantがこの訴訟で有利になる材料があると考えていた[57]

Netbulaは自社のウェブサイトを改ざんしようとしているとして申立に反対し、インターネットアーカイブを直接呼び出さなければならないと主張した[58]。インターネットアーカイブの職員はChordiantの申立を支持する意見書を提出したが、「著しい負担や費用、業務の中断無し」に他の手段でウェブページを作成することはできないとも述べている[57]

カリフォルニア州北地区サンノゼ管区のハワード・ロイド判事はNetbulaの申立は退けたものの、ChordiantにNetbulaが求めるアーカイブページにアクセスできるように一時的にrobots.txtの無効化を求めた[57]

ポーランド・テレビ

2004年10月の訴訟である、「Telewizja Polska USA, Inc. v. Echostar Satellite」, No. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (N.D. Ill. October 15, 2004)は、訴訟の当事者がウェイバックマシンのアーカイブを有効な証拠の典拠とした初めての裁判とされている。Telewizja PolskaはTVPポロニア英語版のプロバイダでエコースター英語版ディッシュ・ネットワークを運営している。裁判の手続きの前に、エコースターはTelewizja Polskaウェブサイトの過去のコンテンツの証拠になるウェイバックマシンのスナップショットを提出しようとしたが、Telewizja Polskaは伝聞証拠禁止の原則や認証されていない典拠であることを理由にスナップショットを採用しないように予備的申し立て英語版を行ったが、アランダー・キーズ判事はTelewizja Polskaによる伝聞証拠禁止の原則の主張を退け、TVPの裁判での証拠としての除外を求める予備的申し立てを認めなかった[59][60]

特許法

いくつかの追加要件(たとえば記録保管者の正式な声明の提供)が満たされていることを条件に、米国特許商標庁欧州特許庁は提供されたウェブページが公にアクセスできていたことを示す証拠となるインターネットアーカイブからのデータ印を承認している。これらの日付はたとえば特許出願審査で、ウェブページが先行技術英語版として利用可能かどうかを決定するのに活用される[61]

実用性の制限

ウェブサイトのアーカイブには技術的制限があり、その結果として、訴訟相手がウェブサイトのアーカイブによってもたらされた結果を悪用することがある。この問題は基礎となるリンクが公開されていない故にエラーを含んでいる可能性がある場合において、ウェブページのスクリーンショットが問題、回答や専門家の証人の報告として提出してしまうことで悪化することもある。たとえばウェイバックマシンなどのアーカイブはフォームに書き込みしないゆえに、アーカイブにおいて非RESTful英語版電子商取引データベースは含まれない[62]

法的地位

欧州では、ウェイバックマシンは著作権法に違反する可能性があると言われている。コンテンツの公開や複製を決めることができるのはそのコンテンツの作成者のみであり、インターネットアーカイブは作成者から削除要求が来たら削除しなければならないとされる[63]。ウェイバックマシンの除外規定は公式サイトのFAQページに書かれている[64]

アーカイブされたコンテンツの法的問題

Wayback Machineのアーカイブ活動に関してインターネットアーカイブに対する訴訟が数多く起こされている。

サイエントロジー

2002年後半、インターネットアーカイブはウェイバックマシンから新興宗教 サイエントロジーを批判する複数のサイトを削除した[65]。この時サイト所有者の要求により削除した旨のエラーメッセージが表示されたが[66]、その後実際に削除を要求したのはサイエントロジー教会 (enの弁護士でありサイト所有者は削除を望んでいなかったことが明らかになった[67]

Healthcare Advocates, Inc.

2003年、Harding Earley Follmer & Fraileyはウェイバックマシンを活用して商標問題からクライアントを弁護した。弁護士は数年前のウェブサイトの内容によって原告の主張は無効であることを論証することに成功した。原告のHealthcare Advocatesはデジタルミレニアム著作権法コンピュータ犯罪取締法英語版違反を含む著作権侵害を糾弾するために申し立ての相手にインターネットアーカイブを含む修正を申告した。また、Healthcare Advocatesは自身のウェブサイトにrobots.txtを導入して以降、最初の訴訟が提起された後もインターネットアーカイブはウェイバックマシンから自身のウェブサイトの過去のコピーを全て削除するべきなのに一部は未だに閲覧可能であると主張した[68]。この訴訟は法廷外で解決していて、その後ウェイバックマシンで問題が修正された[69]

スザンヌ・シェル

活動家のスザンヌ・シェル英語版は2005年12月、1999年から2004年まで自身のウェブサイトの profane-justice.org をアーカイブしていたとして10万ドルの賠償を求めインターネットアーカイブを提訴した[70][71]。インターネットアーカイブは2006年1月20日、カリフォルニア北部地区連邦地方裁判所英語版にシェルの著作権を侵害していないという判決を求める確認訴訟英語版を起こした。これに対してシェルは自身の利用規約英語版に違反していると主張する形でインターネットアーカイブを反訴した[72]。2007年2月13日、コロラド州連邦地方裁判所英語版裁判官は契約違反を除き全ての反訴を退けた[71]。インターネットアーカイブはコピー行為により著作権侵害が生じたというシェルの主張を退けることは望まなかった[73]

2007年4月25日、インターネットアーカイブとスザンヌ・シェルは共同で和解を発表した[70]。インターネットアーカイブは「…自身のウェブコンテンツをアーカイブされたくない人の資料をウェイバックマシンに入れようとは考えていない。我々はシェル氏が自身のウェブサイトに関する有効かつ法的効力のある著作権を有することを認識しており、ウェイバックマシンに彼女のウェブサイトのコンテンツを収集したことによって訴訟になってしまったことを遺憾に思う。」と、シェルは「私はインターネットアーカイブの目標の歴史的価値に敬意を表しており、その目標を阻害したり損害を与えるつもりはなかった。」と述べた[74]

検閲とその他の問題

Archive.orgは現在中国でブロックされている[75][76]。暗号化されたHTTPSプロトコルに対応した後、2015年にインターネットアーカイブはロシア全域でブロックされた英語版[77][78][48]

Library Freedom Projectのアリソン・マクリーナ長官は「図書館員は個人のプライバシーは重視しているものの、検閲には強く反対している。」と述べている[48]

他の脅威には自然災害[79]、サイトのユーザーに対する監視がある[80]

ケヴィン・ヴォーンは「我々の技術的文明に継続性がある場合」に「何も手を加えられていないデータの多くが検索可能」なら「何もない」世代の長期利用において有効な方法で生き残れると考えるとしている[81]

インターネットアーカイブには、長期的なインフラストラクチャが無くてもデータが消失する前に熱心にキャプチャーするために[82]長期間構築し続けていると記述されているとされる[83]

類似サービス

脚注

関連項目

外部リンク

🔥 Top keywords: メインページ宮崎麗果特別:検索豊後水道松本忠久土居志央梨若葉竜也能登半島地震 (2024年)田中雄士長谷部誠井上道義The GazettE若林志穂服部百音黒木啓司REITA虎に翼平井理央出口夏希サーブ (盲導犬)三鷹事件セウォル号沈没事故白眞勲三淵嘉子高橋克也 (オウム真理教)ME:Iルーシー・ブラックマン事件佐藤ありさ杉咲花蜜谷浩弥水野真紀亀井亜紀子 (政治家)熊本地震 (2016年)水原一平井川意高中川安奈 (アナウンサー)内藤剛志いなば食品YOSHIKI