Wayback Machine

Wayback Machine
	; Logo archiwum
Typ strony	Archiwum cyfrowe
Data powstania	24 października 2001
Autor	Brewster Kahle, Bruce Gilliat
Właściciel	Internet Archive
Rejestracja	Opcjonalna
	Multimedia w Wikimedia Commons
	Strona internetowa

Wayback Machine – amerykańskie archiwum cyfrowe World Wide Web i innych informacji dostępnych w Internecie. Zostało upublicznione w październiku 2001 roku przez Brewstera Kahle’a i Bruce’a Gilliata^[2]. Należy do Internet Archive^[3], organizacji nonprofit mającej swoją siedzibę w San Francisco. Serwis był notowany w rankingu Alexa na miejscu 161^[4] (maj 2020)

Historia

Wayback Machine zostało utworzone, aby zapobiec problemowi bezpowrotnej utraty treści zgromadzonej na stronach internetowych, w momencie kiedy są one edytowane lub zamykane^[5]. Usługa ta pozwala użytkownikom na przeglądanie zarchiwizowanych wersji witryn, które przez archiwum nazywane są „trójwymiarowym indeksem”^[6]. Kahle i Gilliat utworzyli to archiwum z nadzieją na archiwizację całego Internetu i zapewnienie „powszechnego dostępu do wiedzy”^[7].

Wayback Machine rozpoczęło archiwizację stron internetowych w 1996 r., z zamiarem upublicznienia całej usługi pięć lat później^[8]. Kahle sporadycznie umożliwiał naukowcom dostęp do zasobów nieukończonej wówczas bazy, dostępnej na taśmie cyfrowej^[9]. W piątą rocznicę powstania, archiwum zostało upublicznione podczas ceremonii w Uniwersytecie Kalifornijskim w Berkeley^[10]. Do tego czasu Wayback Machine zgromadziło ponad 10 miliardów zarchiwizowanych stron^[11].

Nazwa usługi jest aluzją do serialu telewizyjnego Rocky, Łoś Superktoś i przyjaciele, w którym występuje pies Peabody, podróżujący w czasie za pomocą wehikułu o nazwie „WABAC Machine”^[12].

W 2002 roku budżet Wayback Machine sfinansowany m.in. przez kilka korporacji, fundacji (w tym Kahle/Austin Foundation, National Science Foundation, Bibliotekę Kongresu i Markle Foundation) i osoby prywatne wyniósł 10 milionów dolarów^[13].

Aspekty techniczne

Oprogramowanie zostało przystosowane do indeksowania i pobierania, przy pomocy robotów internetowych, wszystkich publicznie dostępnych stron WWW, hierarchii Gopher oraz systemu grup dyskusyjnych Usenet^[14]. Dane zbierane przez „crawlery” nie zawierają wszystkich informacji dostępnych w Internecie, ponieważ dostęp do części z nich może być ograniczany przez ich wydawcę lub przechowywany w niedostępnych bazach. Odpowiedzią na tę sytuację było utworzenie przez Internet Archive w 2005 r. strony Archive-It.org. Umożliwiła ona instytucjom i twórcom zbieranie, przechowywanie oraz tworzenie kolekcji treści i archiwów cyfrowych^[15].

Częstotliwość powstawania snapshotów zależna jest od danej witryny^[16]. Wayback Machine archiwizuje sam kod HTML, ale nie obrazy. Te są pobierane ze stron źródłowych^[17].

Przyrost zasobów w Wayback Machine

W 2003 roku, zaledwie dwa lata po oficjalnym upublicznieniu usługi, zasoby Wayback Machine rosły w tempie 12 terabajtów/miesiąc. Pierwsze 100 TB zostało przekroczone w czerwcu 2004^[18]. W 2009 Wayback Machine mieściło już ok. trzech petabajtów danych, które rosły w tempie 100 TB każdego miesiąca^[19]. W styczniu 2013 r. spółka posiadała w bazie 240 miliardów adresów URL. W październiku 2013 r. na stronie powstała opcja „Save a Page”, która umożliwiała użytkownikowi zgłoszenie konkretnej witryny do archiwizacji^[20]. W grudniu 2014 r. liczba zarchiwizowanych witryn wzrosła do ponad 435 miliardów, co stanowiło prawie dziewięć petabajtów danych, rosnących w tempie 20 terabajtów tygodniowo^[21]. Całkowita ilość danych w lipcu 2016 r. osiągnęła wynik 15 petabajtów^[22], natomiast we wrześniu 2018 r. wyniosła już ponad 25 petabajtów^[23].

Zastosowanie

Od początku działalności w 2001 r., Wayback Machine stało się obiektem badań, zarówno pod kątem tego, w jaki sposób przechowywane są zgromadzone w bazie dane, jak i odnośnie do samych zarchiwizowanych stron dostępnych w archiwum. Do 2013 r. badacze napisali około 350 artykułów, które dotyczyły Wayback Machine. Pochodziły one głównie z takich obszarów nauki, jak technologia informacyjna, bibliotekoznawstwo oraz nauki społeczne. Naukowcy z tej ostatniej grupy wykorzystują Wayback Machine m.in. do analizy tego, jak rozwój witryn zachodzący stale od połowy lat 90., wpłynął na rozwój danego przedsiębiorstwa^[24].

Skrypty archiwizacyjne w Wayback Machine mają na celu zachowanie jak największej liczby działających hiperłączy, które z racji ulotności danych w Internecie, mogłyby zostać utracone. Indyjscy badacze przeprowadzili analizę dotyczącą skuteczności zapisywania hiperłączy zawartych w naukowych publikacjach dostępnych online w Wayback Machine i wynik ten stanowił ponad połowę^[25].

Przypisy

Linki zewnętrzne

Strona Wayback Machine. web.archive.org. [dostęp 2018-04-14]. (ang.).
Częściowe mirrory:
- Bibliotheca Alexandrina Internet Archive [online], International School of Information Science (ISIS) [dostęp 2019-12-22] (ang.). Częściowy mirror lat 1996-2007 (brak niektórych stron z tego zakresu)
- Arquivo.pt - the Portuguese Web Archive: search pages from the past [online], arquivo.pt [dostęp 2019-12-27] (ang. • port.). Bardzo duże braki, skupia się bardziej na stronach portugalskich. Umożliwia wyszukiwanie pełnotekstowe (w treści stron).

[2]

[3]

[4]

[1]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

Search