网站时光机

網際網絡檔案儲存網站

网站时光机(英語:Wayback Machine)是万维网數碼档案馆,由位于美国加利福尼亚州旧金山非營利組織互联网档案馆创建,亦为该组织最重要的服务之一。它允许用户“回到过去”,查看过去的网站的样子。其创始人布鲁斯特·卡利Bruce Gilliat英语Bruce Gilliat开发了网站时光机,旨在通过保存已失效网页的存档副本,以“普及所有知识”(universal access to all knowledge)。自2001年推出以来,已有4,520多亿页面加入档案馆。

网站时光机
Wayback Machine
截图
2021年10月的网站时光机首页
网站类型
存档
持有者互联网档案馆
网址web.archive.org 編輯維基數據鏈接
注册可选
推出时间2001年10月24日,​22年前​(2001-10-24[1][2]
现状活跃
編程語言JavaPython

历史

网站时光机由互联网档案馆的创始人布魯斯特·卡利和Bruce Gilliat英语Bruce Gilliat于2001年推出,以解决网站在维护或关闭时无法查看内容的问题[4],此外还能查看网页的历史存档版本,创始人Kahle和Gilliat希望以此能为整个互联网“普及所有知识”(universal access to all knowledge)[5]

Wayback Machine这个名称源于动画片The Rocky and Bullwinkle Show英语The Rocky and Bullwinkle Show中的“WABAC机器英语WABAC machine”(发音为Way-back),这是一个时间旅行装置[6][7]。在动画片的皮博迪的不可能的历史一集中,角色使用这一机器来见证、参与甚至改变历史上的著名事件[8]

网站时光机于1996年开始存档缓存网页,目标是在五年后将服务公之于众[9]。从1996年到2001年,这些信息保存在数字磁带上,Kahle偶尔允许研究人员和科学家使用数据库[10]。2001年,互联网档案馆成立五周年时,加州大学伯克利分校举行了网站时光机的公布仪式[11]。当网站时光机推出时,它已经存档了超过100亿个页面[12]

如今,数据存储在互联网档案馆的大型Linux节点群集上[5]。有时会重新访问并存档网站的新版本(参见下文技术细节)[13]。如果网站允许网络时光机“爬虫索引”网站并保存数据,则也可以通过在搜索框中输入网站的URL手动捕获网站[9]

技术细节

网络时光机已经开发了软件用于“爬虫索引”并下载所有可公开访问的万维网页面、Gopher层次结构、Usenet公告板系统和可下载软件[14]。这些“爬虫”收集的信息并不能包括互联网上所有可用的信息,因为许多数据受发布者限制或存储在不可访问的数据库中。为了克服部分缓存网站的不一致性,2005年,互联网档案馆开发了Archive-It.org,使得机构和内容创作者可以自愿收集和保存数字内容,并创建数字档案馆[15]

爬虫索引来自各种来源,其中一些是从第三方导入的,而另一些是由存档内部生成的[13]。自2010年以来,“Worldwide Web Crawls”一直在运行,并捕获全球网站[13][16]

快照捕获的频率因网站而异[13]。“Worldwide Web Crawls”中的网站包含在“爬网列表”(crawl list)中,每次爬网都会将网站存档一次[13]。爬网可能需要数月甚至数年才能完成,具体取决于其大小[13]。例如,"Wide Crawl Number 13"从2015年1月9日开始,于2016年7月11日完成[17]。但是,一次可能有多个爬网正在进行,并且一个站点可能包含在多个爬网列表中,因此,对站点进行爬网的频率有很大的不同。[13]

存储容量的增加

随着多年来技术的发展,网站时光机的存储容量不断增加。2003年,仅经过两年的公开访问,网站时光机便以每月12太字节(TB)的速度增长。数据存储在由互联网档案馆的工作人员定制设计的PetaBox英语PetaBox机架系统上。第一个100太字节(TB)的机架于2004年6月全面投入使用,不过很快就发现,这些存储空间远远不够[18][19]

互联网档案馆在2009年其定制的存储体系结构迁移到Sun开放式储存英语Sun Open Storage,并在Sun系统加利福尼亚园区的Sun模块化数据中心英语Sun Modular Datacenter中托管了一个新的数据中心[20]。截至2009年 (2009-Missing required parameter 1=month!),网站时光机包含大约3拍字节(PB)的数据,并以每月100太字节(TB)的速度增长[21]

2013年1月,该公司宣布了2400亿个URL的突破性里程碑[22]。2013年10月,该公司宣布了“保存页面”(Save a Page)功能[23],允许任何互联网用户存档URL的内容。这成为了托管恶意二进制文件的服务滥用威胁[24][25]

截至2014年12月 (2014-12),网站时光机存有4350亿个网页,将近9拍字节(PB)的数据,并且每周增长约20太字节(TB)[12][26][27]

据报道,截至2016年7月 (2016-07),网站时光机存有约15拍字节(PB)的数据[28]

截至2018年9月 (2018-09),网站时光机存有超过25拍字节(PB)的数据[29][30]

成长

2013年10月至2015年3月,该网站的全球Alexa排名从163[31]变为208[32]。2019年3月,该排名为244[33].

网站时光机的成长[34][35]
年份已存档的页面数(单位:亿)
2005
400
2008
850
2012
1,500
2013
3,730
2014
4,000
2015
4,520
2016
4,590
2017
2,790
2018
3,100
2019
3,450
2020
4,050
2021
5,140
2022
6,400

网站排除方针

历年来,网站时光机一直尊重机器人排除标准(robots.txt)以决定一个网站是否会受爬网;或者如果已经爬网了,它的存档是否可以公开查看。通过使用robots.txt,网站所有者可以选择退出网站时光机。如果站点阻止了网页存档,则域中以前存档的任何页面也将立即显示为不可用。此外,互联网档案馆表示,“有时网站所有者会直接联系我们,要求我们停止对网站进行爬网或存档。我们会遵守这些请求。”[36][37]

2017年4月17日,有报道称,一些网站已经倒闭,成为暂停的域英语Domain parking(Domain parking)。它们通过使用robots.txt把自己排除在搜索引擎之外,这使得时光机无意中排除了這些网站[38]

网站时光机的网站排除方针(Website exclusion policy)部分基于2002年加利福尼亚大学伯克利分校信息管理和系统学院发布的《管理删除请求和维护档案完整性的建议》(英語:Recommendations for Managing Removal Requests and Preserving Archival Integrity),此建议赋予网站所有者阻止访问网站存档的权利[39]。网站时光机遵守了这一政策,以避免昂贵的诉讼[40]

网站排除方针于2017年开始放宽,当时它停止遵循robots.txt,并对美国政府和军方的网站进行爬网和显示网页。截至2017年4月,网站时光机更广泛地忽略了robots.txt,而不仅对于美国政府网站[41][42][43][44]

用途

自2001年网站时光机公开发布以来,学者们一直在研究它的存储和收集数据的方式,以及其存档中实际包含的页面。截至2013年,学者们已经在网站时光机上撰写了大约350篇文章,其中大部分来自信息技术图书馆学社会科学领域。社会科学学者们使用网站时光机分析了从90年代中期至今网站的发展对公司的成长的影响[12]

当网站时光机存档一个页面时,它通常会包含大多数超链接,以使这些链接遭互联网的不稳定性轻易破坏时,能够仍然保持活动状态。印度的研究人员研究了网站时光机保存在线学术出版物中的超链接的能力的有效性,发现它保存了略多于一半的超链接。[45]

有记者使用网站时光机查看失效的网站、过时的新闻报道以及被更改的网站内容。其内容已用于追究政治家的责任,揭穿争论场合上的谎言[46]。2014年,乌克兰东部分裂地区叛军顿涅茨克人民军领导人伊戈尔·斯特列尔科夫的社交媒体的存档页面显示,他吹嘘自己的部队击落了一架疑似乌克兰军用飞机,后来才知道这架飞机实际上是一架马航民航客机(马来西亚航空17号班机),之后,他删除了发布的这篇文章,并指责乌克兰军方击落了这架飞机[46][47]。2017年,在社交网站Reddit的讨论中,有人表示访问过archive.org 并发现白宫网站删除了所有提及气候变化的内容,对此,一位用户评论道:“科学家有必要在华盛顿举行一次游行”,此事成为了为科学游行(March for Science)举行的原因[48][49][50]

存在局限

2014年,从抓取网站到它可以在网站时光机上查看之间存在6个月的延迟时间[51]。目前,该延迟时间为3-10小时[52]。网站时光机仅提供有限的搜索功能,它的“站点搜索”(Site Search)功能允许用户根据描述站点的词汇来查找站点,而非网页本身的词汇[53]

由于网络爬虫的限制,网站时光机无法完全存档互动式网页,例如Flash平台和使用JavaScript渐进式网络应用程序编写的表单,因为这些功能需要与宿主网站交互。网站时光机的网络爬虫很难提取任何未使用HTML或其变形编码的内容,这通常会导致超链接损坏和图像丢失。因此,网络爬虫无法存档不包含指向其他页面的链接的“孤立页面”(Orphan page)[53][52]。由于其爬虫程序仅能根据其预设的深度限制追踪有限数量的超链接,因此它无法存档每个页面中的每个超链接[16]

法律证据

民事诉讼

Netbula LLC v. Chordiant Software Inc.

在2009年的“Netbula, LLC v. Chordiant Software Inc.”一案中,被告Chordiant提出动议,要求Netbula禁用其网站上的robots.txt文件,因为该文件导致网站时光机追溯性地撤销了对Netbula网站先前版本的存档的访问权限,Chordiant相信这些页面中存在有利于诉讼的材料[54]

Netbula反对该动议,理由是被告要求更改Netbula的网站,他们应该直接为这些页面直接传唤互联网档案馆[55]。然而,互联网档案馆的一名雇员发表了宣誓声明,支持Chordiant的动议,表示在“不对其运营造成大量负担,费用和干扰”的情况下,无法通过任何其他方式访问网页[54]

美国加利福尼亚北区联邦地区法院圣何塞分部的地方法官霍华德·劳埃德(Howard Lloyd)驳回了Netbula的论点,并命令他们暂时禁用robots.txt阻止程序,以使Chordiant可以检索他们想要的存档页面[54]

波兰电视台

在2004年10月的“ Telewizja Polska USA, Inc. v. Echostar Satellite”No. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (N.D. Ill. October 15, 2004)一案中,一名诉讼当事人试图使用网站时光机的档案作为有效证据的来源,此举可能属于首次。波兰电视台是TVP Polonia英语TVP Polonia的供应商,EchoStar英语EchoStar运营Dish Network。在审判程序之前,EchoStar表示,它打算提供网站时光机快照,作为波兰电视台网站过去内容的证据。

参考文献

参閲

外部链接

镜像网站

实用程序