Deep Web

Deep Web (în traducere aproximativă „internetul în profunzime”) numit și Deepnet, Invisible Web, Undernet sau Hidden Web, este conținut al World Wide Web. Deep Web nu face parte a Internetului superficial (Surface Web), care este indexat de motoarele de căutare standard. El nu trebuie confundat cu dark Internet, sau cu rețeaua de găzduire și distribuție de fișiere Darknet. Există îngrijorarea că darknet poate fi utilizat pentru activități criminale destul de serioase.^[1]

Majoritatea informației din internet este ascunsă în site-uri generate dinamic, și astfel motoarele de căutare tradiționale nu o pot găsi. În 2001, deep Web era de câteva zeci de ori mai voluminos decât internetul superficial.^[2]

Esența problemei

Într-o rețea profundă există pagini web care nu sunt legate de alte hyperlink-uri (de exemplu, pagini web de tip "dead-end" creat în mod dinamic de scripturi pe site-uri, la cerere, care nu sunt direct menționate), precum și accesul la site- și pagini de Internet accesibile numai prin parolă.

Motoarele de căutare utilizează un robot special care navighează prin hyperlink-uri și indexează conținutul paginilor web care apar, punând conținutul lor și hyperlink-urile în bazele lor de date. După ce a găsit link-uri către alte pagini de pe pagina web indexată, botul de căutare navighează prin ele și indexează conținutul fiecărei pagini găsite, găsește noi hyperlink-uri și trece peste ele pentru indexare; Ca urmare a legăturilor care depășesc paginile indexate numărul de pagini web indexate este în continuă creștere. Pentru a ajunge la pagini web care nu sunt menționate de alte pagini botul de căutare nu poate, din cauza conținutului acestor pagini care nu este indexat. Prin urmare, fără a cunoaște adresa URL a site-ului sau a paginii web a "Deep Web", un utilizator obișnuit nu le poate accesa.

De asemenea, "Deep Web" include site-uri ai căror proprietari au refuzat în mod voluntar să fie indexați de motoarele de căutare (de exemplu utilizând fișierul "robots.txt"), precum și site-uri web și pagini web protejate prin autorizare de a vizualiza informații de către terțe părți. În acest caz, fără a cunoaște numele de conectare și/sau parola pe pagina web, este imposibil să vizualizați complet conținutul acestuia sau să utilizați site-ul Web.

Mărimea

Estimările unui studiu realizat la Universitatea Berkeley din California în 2001,^[2] indicau că deep Web constă din aproape 7,5 petabyte. Alte estimări indicau că în 2004 existau în jur de 300.000 de site-uri web în deep web,^[3] iar, conform lui Șestakov, circa 14.000 de site-uri deep web existau în spațiul rusesc din internet în 2006.^[4]

Resurse Deep Web

Metodele care împiedică paginile web să fie indexate de motoarele de căutare tradiționale pot fi clasificate în mai multe categorii:

pagini cu conținut dinamic: pagini dinamice care apar ca răspuns la un anumit tip de căutare sau care sunt accesate prin formulare web (câmpuri de text)
pagini care nu sunt legate de altele prin link-uri
web privat: pagini care necesită un nume de utilizator și parolă
web contextual: pagini al căror conținut variază în funcție de contextul în care sunt accesate (clasa de adresă IP, sau secvența de navigare precedentă).
pagini cu conținut limitat: pagini cu acces limitat tehnic (folosesc programe care împiedică sau chiar exclud accesul roboților de căutare și motoarelor de căutare să le indexeze și să creeze copii cache); pentru aceasta, robotul utilizează un fișier text (robots.txt) aflat în rădăcina site-ului care poate permite sau restricționa roboții motoarelor de căutare să acceseze paginile site-ului
conținut scriptat: pagini ce sunt accesibile doar prin link-uri de JavaScript, dar și alte conținuturi dinamice descărcate de pe serverele web
conținut non-HTML/text: conținut textual codat în fișiere multimedia sau alte formate specifice ce nu sunt suportate de motoarele de căutare. ^[5]

Motoare de căutare în Deep Web

Infomine: a fost realizat de mai multe biblioteci din S.U.A.; informații din baze de date, jurnale electronice, cărți electronice, buletine de știri, liste de mail, cataloage online, articole și alte resurse.
The WWW Virtual Library: considerat a fi cel mai vechi catalog web
Intute: motor de căutare care indexează site-urile unor universitati prestigioase, ce oferă resurse pentru studiu și cercetare.
Complete Planet: indexează în jur de 70.000 de baze de date al căror conținut variază de la agricultură la domeniul militar.
Infoplease: conține enciclopedii, almanahuri, atlase și biografii.
DeepPeep: accesează căutarea în interiorul mai multor domenii: auto, aviație, cărți, biologie, hotel, locuri de muncă, închirieri.
IncyWincy: folosește alte motoare de căutare și apoi filtrează rezultatele.
DeepWebTech: ofera 5 motoare de căutare pentru anumite subiecte; printre domeniile acoperite sunt din știinta, medicina și afaceri.
Scirus: motor de căutare puternic axat doar pe știință; indexează jurnale, site-uri personale ale unor savanți, materiale de curs și rețele instituționale.
TechXtra: motor de căutare axat pe inginerie, matematică și IT; indexează știrile din aceste domenii, oferte de muncă, rapoarte tehnice, documente electronice, resurse de studiu și cercetare, alte article și informatii relevante. ^[6]^[7]

Vezi și

Referințe

Bibliografie

Barker, Joe (2004), „Invisible Web: What it is, Why it exists, How to find it, and its inherent ambiguity”, Teaching Library Internet Workshops, Berkeley, CA, USA: UC .
Gruchawka, Steve (iunie 2006), How-To Guide to the Deep Web, arhivat din original la 5 ianuarie 2014, accesat în 29 decembrie 2013 .
Hamilton, Nigel (2003), The Mechanics of a Deep Net Metasearch Engine, 12th World Wide Web Conference .
He, Bin (2003). „Statistical Schema Matching across Web Query Interfaces” (PDF). Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data. Arhivat (PDF) din originalul de la 20 iulie 2011. Accesat în 29 decembrie 2013.
Ipeirotis, Panagiotis G. (2001). „Probe, Count, and Classify: Categorizing Hidden-Web Databases” (PDF). Proceedings of the 2001 ACM SIGMOD International Conference on Management of Data. pp. 67–78. Arhivat din original (PDF) la 12 septembrie 2006. Accesat în 29 decembrie 2013.
King, John D. (2007). „Mining World Knowledge for Analysis of Search Engine Content” (PDF). Web Intelligence and Agent Systems: an International Journal. 5 (3): 233–53. Arhivat din original (PDF) la 3 decembrie 2008. Accesat în 29 decembrie 2013.
McCown, Frank (2006). „Search Engine Coverage of the OAI-PMH Corpus” (PDF). IEEE Internet Computing. 10 (2): 66–73. doi:10.1109/MIC.2006.41.
Price, Gary (2001). The Invisible Web: Uncovering Information Sources Search Engines Can't See. CyberAge Books. ISBN 0-910965-51-X.
Shestakov, Denis (June 2008). Search Interfaces on the Web: Querying and Characterizing Arhivat în 6 iulie 2014, la Wayback Machine.. TUCS Doctoral Dissertations 104, University of Turku
Wright, Alex (2004), In Search of the Deep Web, Salon, arhivat din original la 9 martie 2007 .

Legături externe

deep-web.org
Deep Web Sites Arhivat în 17 februarie 2016, la Wayback Machine.
Deep Web - Tot ce trebuie să știi despre internetul ascuns
Basu, Saikat (14 martie 2010), 10 Search Engines to Explore the Invisible Web, MakeUseOf.com .

Whoriskey, Peter (11 decembrie 2008), Firms Push for a More Searchable Federal Web, The Washington Post, p. D01 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]