Diep web

inhoud van die Wêreldwye Web wat nie deur soekenjins geïndekseer word nie

Die diep web[1], onsigbare web[2], of verborge web[3] is dele van die Wêreldwye Web waarvan die inhoud nie deur gewone websoekenjins geïndekseer word nie. Die teenoorgestelde term van die diep web is die oppervlakweb, wat toeganklik is vir enigiemand wat die internet gebruik.[4] Rekenaarwetenskaplike Michael K. Bergman word gekrediteer vir die skep van die term diep web in 2001 as ’n soekindeksterm.

Grafiese voorstelling van die oppervlakweb en die diep web

Die inhoud van die diep web is weggesteek agter HTTP-vorms[5][6], en sluit baie algemene gebruike soos webpos, internetbankdienste en dienste in waar gebruikers voor moet betaal, en wat deur ’n betaalmuur beskerm word, soos onder meer video-op-aanvraag, sommige aanlyntydskrifte en -koerante.

Die inhoud van die diep web kan deur ’n direkte URL of IP-adres gevind word en toegang tot die webwerf kan wagwoorde vereis.

Terminologie

Die eerste samesmelting van die terme “diep web” en “donker web” het in 2009 ontstaan toe die diep web soekterminologie saam met onwettige aktiwiteite op die Freenet darknet bespreek is.[7]

Sedert die media verslag gelewer het van die Silk Road, het baie[8][9] mense en media begin om die diep web as sinoniem van die donker web of donkernet te gebruik. Sodanige vergelyking behoort as onakkuraat verwerp te word[10], en is gevolglik ’n deurlopende bron van verwarring.[11] Die verslaggewers Kim Zetter[12] en Andy Greenberg[13] beveel aan dat die terme in verskillende kontekste gebruik word. Terwyl die diep web verwys na enige webwerf wat nie deur ’n tradisionele soekenjin verkry kan word nie, is die donker web ’n gedeelte van die diep web wat doelbewus verborge is en ontoeganklik is vir standaardwebblaaiers en ander soekmetodes.[14][15][16][17][18]

Nie-geïndekseerde inhoud

In ’n berig oor die diep web wat inThe Journal of Electronic Publishing gepubliseer is, het Bergman genoem dat Jill Ellsworth die term Invisible Web (onsigbare web) in 1994 gebruik het om te verwys na webwerwe wat nie by enige soekenjin geregistreer was nie.[19] Bergman het ’n artikel deur Frank Garcia van Januarie 1996 aangehaal[20]:

“Dit sal ’n webwerf wees wat moontlik redelik ontwerp is, maar hulle was nie gepla om dit met enige soekenjins te registreer nie. So, niemand kan hulle vind nie! Jy is versteek. Ek noem dit die onsigbare web.”

Nog ’n vroeë gebruik van die term “onsigbare web”, was deur Bruce Mount en Matthew B. Koll van Personal Library Software, in ’n beskrywing van die # 1 Deep Web-hulpmiddel wat in ’n persverklaring van Desember 1996 gevind is.[21]

Die eerste gebruik van die spesifieke term diep web, wat nou algemeen aanvaar word, het in die bogenoemde 2001 Bergman-studie voorgekom.[19]

Indekseringsmetodes

Metodes wat verhoed dat webbladsye deur tradisionele soekenjins geïndekseer word, kan as een of meer van die volgende gekategoriseer word:

  1. Kontekstuele web: bladsye met inhoud wat wissel vir verskillende toegangskontekste (bv. reekse van kliënt-IP-adresse of vorige navigasiereekse).
  2. Dinamiese inhoud: dinamiese bladsye, wat teruggestuur word in reaksie op ’n ingeslote navraag of slegs deur ’n vorm verkry word, veral as toevoerelemente van oop domein (soos teksvelde) gebruik word; sulke velde is moeilik om te navigeer sonder domeinkennis.
  3. Beperkte toegangsinhoud: webwerwe wat die toegang tot hul bladsye op ’n tegniese manier beperk (bv. die gebruik van die Robot-uitsluitingstandaard of CAPTCHAs, of geen-winkel-riglyn, wat soekenjins verbied om hulle te blaai en kopieë in die kasgeheue te maak.[22]
  4. Nie-HTML/teksinhoud: teksinhoud geïnkripteer in multimedialêers (beeld of video) of spesifieke lêerformate wat nie deur soekenjins hanteer word nie.
  5. Privaat web: webwerwe wat registrasie en inskrywing benodig (wagwoordbeskermde hulpbronne).
  6. Skrip inhoud: bladsye wat slegs toeganklik is deur middel van skakels wat deur JavaScript geskep word, sowel as inhoud wat dinamies afgelaai is van webbedieners via Flash of AJAX-oplossings.
  7. Programmatuur: sekere inhoud is doelbewus weggesteek van die gewone internet, slegs toeganklik met spesiale sagteware, soos TOR (Uie-roeteerder-enkripteerder), I2P, of ander donkernetprogrammatuur. TOR verleen byvoorbeeld aan gebruikers anonieme toegang tot webwerwe met die .onion-bedieneradres deur hul IP-adres te versteek.
  8. Onverwante inhoud: bladsye wat nie deur ander bladsye gekoppel is nie, kan voorkom dat webkruipprogramme toegang tot die inhoud verkry. Hierdie inhoud word na verwys as bladsye sonder terugskakels (ook bekend as binneskakels). Ook soek soekenjins nie altyd alle terugskakels vanaf gesoekte webblaaie nie.
  9. Web argiewe: Web argiefdienste soos die Wayback-masjien stel gebruikers in staat om argiefweergawes van webblaaie oor tyd te sien, insluitende webwerwe wat ontoeganklik geword het en nie deur soekenjins soos Google geïndekseer word nie.[9]

Soorte inhoud

Alhoewel dit nie altyd moontlik is om ’n spesifieke webbediener se inhoud direk te ontdek nie, sodat dit geïndekseer kan word, kan indirek toegang tot so ’n webwerf wel verkry word (weens rekenaarkwesbaarhede).

Om inhoud op die web te ontdek, gebruik soekenjins webkruipers wat hiperskakels volg deur bekende protokol virtuele poortnommers. Hierdie tegniek is ideaal vir die ontdekking van inhoud op die oppervlakweb, maar is dikwels ondoeltreffend om diep webinhoud te vind. Hierdie kruipers probeer byvoorbeeld nie dinamiese bladsye te vind wat die gevolg is van databasisnavrae as gevolg van die onbepaalde aantal navrae wat moontlik is nie.[23] Daar is opgemerk dat dit gedeeltelik oorkom kan word deur skakels te verskaf om resultate te vra, maar dit kan die gewildheid van 'n webwerf van die diep web onopopsetlik vergroot.

DeepPeep, Intute, Deep Web Technologies, Scirus en Ahmia.fi is ’n paar soekenjins wat toegang tot die diep web het. Intute het sy finansiering verloor en is sedert Julie 2011 ’n tydelike statiese argief.[24] Scirus het aan die einde van Januarie 2013 opgehou funksioneer.[25]

Navorsers het ondersoek ingestel na hoe die diep web outomaties ondersoek kan word, insluitend inhoud wat slegs deur spesiale sagteware soos Tor verkry kan word. In 2001 het Sriram Raghavan en Hector Garcia-Molina van Stanford-universiteit se Departement Rekenaarwetenskap[26][27] ’n argitektoniese model voorgestel vir ’n versteekte webkruiper wat sleutelterme wat deur gebruikers verskaf is of versamel is van die navraagkoppelvlakke om navraag te doen ’n webform en die diep webinhoud te ondersoek.[28] Verskeie vormnavraagtale (soos byvoorbeeld, DEQUEL[29]) is voorgestel waar, buiten die uitreiki van ’n navraag, ook die uitruil van gestruktureerde data uit die resultaatbladsye toegelaat word. Nog ’n poging is DeepPeep, ’n projek van die Universiteit van Utah wat deur die National Science Foundation geborg is, wat verborge webbronne (webvorms) in verskillende domeine versamel het gebaseer op ’n gefokusde kruiper.[30][31]

Kommersiële soekenjins het begin met die ondersoek van alternatiewe metodes om die diep web te ondersoek. Die sitemap-protokol (wat in 2005 deur Google ontwikkel) en OAI-PMH, is meganismes waarmee soekenjins en ander belanghebbende webwerwe op sekere webbedieners kan ontdek. Beide meganismes laat webbedieners toe om die URL’s wat op hulle toeganklik is, te adverteer en sodoende outomatiese ontdekking van hulpbronne wat nie direk aan die oppervlakweb gekoppel is nie, toe te laat. Google se webwerwe vir diep webwerwe bereken voorleggings vir elke HTML-vorm en voeg die gevolglike HTML-bladsye by die Google-soekenjin-indeks. Die opgedateerde resultate is verantwoordelik vir ’n duisend navrae per sekonde op die diep webinhoud.[32] In hierdie stelsel word die voorberekening van voorleggings gedoen met behulp van drie algoritmes:

  1. Invoerwaardes kies vir teks soek insette wat sleutelwoorde aanvaar,
  2. identifiseer insette wat slegs waardes van ’n spesifieke tipe (bv. Datum) en
  3. kies ’n klein aantal invoerkombinasies wat URL’s genereer wat geskik is vir insluiting in die web soek indeks.

Om gebruikers van Tor-verborge-dienste in hul toegang en soektog na ’n verborge .onion-agtervoegsel te fasiliteer, het Aaron Swartz in 2008 Tor2web ontwerp - ’n proxy-aansoek wat toegang verleen deur middel van algemene webblaaiers.[33] Deur hierdie toepassing te gebruik, verskyn diep webskakels as ’n ewekansige string van letters, gevolg deur die .onion TLD.

Verwysings

Hierdie artikel is in sy geheel of gedeeltelik vanuit die Engelse Wikipedia vertaal.