Web chìm

trang/nội dung trên World Wide Web không thuộc về mạng nổi

Web chìm (tiếng Anh: deep web) hay còn gọi là mạng chìm (deep web)[1], web ẩn (invisible web[2], undernet, hay hidden web[3]) là từ dùng để chỉ các trang hoặc nội dung trên thế giới mạng World Wide Web không thuộc về Web nổi (Surface Web), gồm những trang không được đánh dấu, chỉ mục (index) và không thể tìm kiếm được khi dùng các công cụ tìm kiếm thông thường. Nội dung của web chìm ẩn bên dưới các bản mẫu HTML,[4][5] và có thể yêu cầu mật khẩu hoặc truy cập bảo mật khác qua trang web công cộng.

Các tầng của internet được hình tượng thành một ngọn núi băng, web chìm nằm ở giữa núi băng.

Web chìm bao gồm nhiều ứng dụng rất phổ biến như web mailngân hàng trực tuyến nhưng nó cũng bao gồm các dịch vụ mà người dùng phải trả tiền, và được bảo vệ bởi một paywall, như video theo yêu cầu, một số tạp chíbáo chí trực tuyến, và nhiều hơn nữa. Nhà khoa học máy tính : Michael K. Bergman được cho là đã tạo ra thuật ngữ này vào năm 2001 như một thuật ngữ lập chỉ mục tìm kiếm.[6]

Năm 2011, lượng thông tin trên web chìm đã vượt hơn hẳn web nổi.

Quy mô

Web chìm là một phần của Internet. Trong một bài báo phát hành năm 2001, nhà học giả cũng như là một doanh nhân tên Michael K. Bergman đã viết: "Những trang deep web hiện nay có kích thước gấp 400 đến 550 lần so với những trang web được định nghĩa thông thường trên thế giới."[7][8][9]

Trong một nghiên cứu tại đại học California, Berkeley năm 2011, dựa trên ước lượng ngoại suy, dung lượng dữ liệu trên web chìm khoảng 7500 terabyte. Cụ thể gồm khoảng 300.000 trang web chìm trong năm 2004, và theo Shestakov, khoảng 14 000 trang web chìm có xuất xứ từ Nga vào năm 2006.

Tên gọi

Nguồn gốc

Trong một bài báo chuyên đề về web chìm trên tạp chí Electronic Publishing, Michael Bergman đã nhắc đến việc Jill Ellsworth đã sử dụng thuật ngữ Invisible Web vào năm 1994 để ám chỉ các website không đăng ký với bất kỳ máy tìm kiếm nào cả. Bergman đã trích dẫn một bài viết vào tháng 1 năm 1996 của trâm pu: "Một trang web được thiết kế hợp lý, nhưng người lập ra trang web đó đã không để ý tới việc đăng ký nó với bất kỳ máy tìm kiếm nào. Vì vậy, không ai tìm thấy nó và nó được ẩn. Tôi gọi đó là web ẩn (Invisible Web)."

Thuật ngữ Invisible Web trước đó đã được Bruce Mount và Matthew B. Koll sử dụng tại Personal Library Software, trong một miêu tả về các công cụ cocomelon @1 được tìm thấy trong một ấn phẩm vào tháng 12 năm 1996.

Việc sử dụng lần đầu thuật ngữ Deep Web, hiện nay đã được mọi người công nhận, đó là vào năm 2001 trong một nghiên cứu của Bergman.

Khái niệm hiện tại

Khái niệm Deep Web được sử dụng để chỉ tất cả những trang web mà các máy tìm kiếm như Google, Bing, Yahoo... không thể tìm thấy, bao gồm databases, các thông tin đăng nhập, Webmail,...[10]

Tài nguyên

Số lượng thông tin trên deep web đang tăng nhanh. Giá trị nội dung của chúng không thể đánh giá đầy đủ được... lượng thông tin được (các máy tìm kiếm) tìm thấy chỉ chiếm 0.03% tổng lượng thông tin có trên Internet.[11]

— Michael K Bergman, [8]

Tài nguyên trên web chìm được phân loại theo một hoặc nhiều loại có trong danh mục sau:

  • Nội dung web động: các trang web động trả về kết quả theo một truy vấn hoặc xử lý theo dạng form, đặc biệt nếu sử dụng các thành phần nhập tên miền mở (như text field); các miền này rất khó xử lý nếu không có kiến thức về tên miền.
  • Các nội dung không được tạo liên kết hyperlink: các trang không liên kết với các trang khác, sẽ ngăn cản các chương trình dò (crawling program) truy cập vào nội dung của nó. Các trang này được truy cập trực tiếp trên thanh địa chỉ trình duyệt, vì không có các đường dẫn từ/trong bất kỳ trang web nào khác.
  • Các trang web phải xác thực truy cập: các trang yêu cầu phải đăng ký và đăng nhập mới vào xem thông tin được (các tài nguyên được password bảo vệ).
  • Các trang web có nội dung thay đổi theo ngữ cảnh: các trang web này hiển thị nội dung thay đổi tùy thuộc vào một số điều kiện tác động, ví dụ như người dùng từ các dải IP của châu Á truy cập vào thì sẽ được xem nội dung phù hợp cho khu vực châu Á.
  • Các nội dung web bị giới hạn truy cập: một số trang web giới hạn việc truy cập tới các nội dung của nó bằng một số phương pháp kỹ thuật như file Robots.txt, CAPTCHAs hoặc tham số HTTP headers để ngăn cấm các máy tìm kiếm truy cập nội dung của nó, cũng như tạo phiên bản cache nội dung.
  • Nội dung sinh từ script hoặc Flash, Ajax: một số trang web chỉ có thể truy cập thông qua một liên kết được sinh ra bởi một đoạn mã JavaScript (mà hva là một ví dụ trực tiếp), hoặc nội dung được nhúng bên trong Flash hoặc chỉ có thể được tải về thông qua Ajax.
  • Các nội dung không theo kiểu HTML/text: Các nội dung dạng text được mã hóa trong các file đa phương tiện (hình ảnh hoặc video) hoặc các định dạng file đặc biệt mà các cỗ máy tìm kiếm không thể xử lý được.
  • Nội dung văn bản chỉ có thể truy cập thông qua giao thức Gopher hoặc các file được lưu trữ trên các máy chủ FTP thì không được lập chỉ mục bởi hầu hết các máy tìm kiếm hiện nay: các máy tìm kiếm thông dụng như Google mặc nhiên không lập chỉ mục cho các trang không dùng giao thức HTTP hoặc HTTPS.

Truy cập

Để khám phá nội dung trên các trang web, các máy tìm kiếm sử dụng các máy dò để lần theo các hyperlink thông qua các số đã biết của cổng giao thức ảo. Kỹ thuật này lý tưởng để khám phá các nguồn tài nguyên trên web nổi, nhưng không có tác dụng mấy đối với web chìm. Ví dụ, những máy dò này không thử tìm các trang liên kết động mà kết quả truy vấn database dựa trên số vô định các truy vấn có thể xảy ra. Chú ý là điều này có thể (một phần) được vượt qua bởi cách cung cấp các đường dẫn tới các kết quả truy vấn, nhưng điều này lại vô tình làm thôi phồng sự nổi tiếng cho một Trang deep web.

Vào 2005, Yahoo! thực hiện một dịch vụ tìm kiếm một phần nhỏ của web chìm bằng cách ra mắt Yahoo! Subscriptions. Máy tìm kiếm này tìm kiếm trong vài trang web mà phải đăng ký thành viên mới vào xem nội dung được. Vài trang này hiển thị đầy đủ nội dung cho máy tìm kiếm robot do đó chúng sẽ hiển thị trên kết quả tìm kiếm của người dùng, nhưng sau đó hiển thị lên một trang đăng nhập (log in) hoặc trang đăng ký khi click vào một đường dẫn từ trang kết quả tìm kiếm từ trang đó.

Từ lúc trình duyệt Tor ra đời, người dùng có thể dễ dàng truy cập được vài tầng trong deep web một cách khá an toàn (khỏi những trang dark web hoặc những trang web của tội phạm, web chứa nội dung phi pháp, hacker, thông tin mật...) tràn lan trong deep web mà không được kiểm soát, ảnh hưởng đến sự bảo mật và an toàn của người truy cập. Để duyệt các web trong đấy cần những thư viện các đường dẫn. Tuy nhiên, để truy cập được những trang web bảo mật hơn trong web chìm, người dùng cần phải có kiến thức về phần mềmphần cứng cao.

Nội dung

Nói chung, nội dung trên deep web (bao gồm cả dark web) chứa đựng các nội dung sau:[12]

Dò tìm web chìm

Các nhà nghiên cứu đã khám phá ra cách thức dò tìm web chìm một cách tự động. Năm 2011, Sriram Raghavan và Hector Garcia-Molina giới thiệu mô hình kiến trúc cho một máy dò web ẩn, sử dụng các từ khóa cung cấp bởi người dùng hoặc thu thập từ các giao diện truy vấn để truy vấn tới các trang và tài nguyên web chìm. Alexandros Ntoulas, Petros Zerfos, và Junghoo Cho tại UCLA đã tạo ra một máy dò Hidden-Web cho phép tự động tạo ra các truy vấn có ý nghĩa một cách tự động tới các form nhập dữ liệu tìm kiếm. (ví dụ: DEQUEL: ngoài nhập lệnh truy vấn, nó còn chiết xuất dữ liệu có cấu trúc từ các trang kết quả. Một máy dò khác là DeepPeep, một dự án khác của đại học Utah được tài trợ bởi tổ chức National Science Foundation, cho phép tập hợp các nguồn Hidden-Web (dạng Web) trong các tên miền khác nhau dựa vào các kỹ thuật dò tìm dựa trên ngữ cảnh.

Các máy tìm kiếm thương mại đã bắt đầu tạo ra các phương pháp khác nhau để dò tìm web chìm. (Được phát triển đầu tiên bởi Google) và mod oai là các cơ chế cho phép các bên liên quan có thể khám phá các nguồn tài nguyên deep web trên các server (trang chủ) đặc thù. Cả hai cơ chế trên đều cho phép các web server quảng cáo các đường dẫn (URL) được truy cập tới chúng, bằng cách đó nó cho phép tự động khám phá các nguồn tài nguyên không liên kết trực tiếp tới web nổi. Hệ thống duyệt web chìm của Google tính toán trước các tác vụ nhỏ cho mỗi form HTML và đưa vào trang HTML kết quả tìm kiếm vào chỉ mục tìm kiếm của Google. Kết quả hiển thị của các trang web chìm chiếm một ngàn truy vấn trong một giây. Trong hệ thống này, các tính toán trước được thực hiện theo 3 phương thức sau:

  • Chọn các giá trị đầu vào để tìm kiếm các thông tin dạng ký tự (text search) thông qua các từ khóa (keyword),
  • Xác định các yếu tố đầu vào mà chấp nhận chỉ các kiểu dữ liệu xác định nào đó (ví dụ như ngày, tháng...),
  • Chọn một số nhỏ các liên kết đầu vào để tạo ra các URL thích hợp để đưa vào chỉ mục-tìm kiếm-web.

Phân loại tài nguyên

Để tự động xác định một tài nguyên web có phải thuộc dạng web nổi hay web chìm hay không là một việc khó. Một tài nguyên được đánh dấu bởi một search engine, thì không nhất thiết nó thuộc loại web nổi, bởi vì các tài nguyên trên mạng có thể được tìm thấy bằng nhiều phương pháp khác nhau (như Sitemap Protocol, mod oai, OAIster) thay vì các phương pháp dò tìm (crawling) truyền thống. Nếu một máy tìm kiếm cung cấp một đường dẫn của một tài nguyên nào đó trong một kết quả tìm kiếm cụ thể, có thể cho đó là web nổi. Không may là, các máy tìm kiếm không phải không nào cũng cung cấp tất cả các đường dẫn này (backlink). Ngay cả khi có backlink, cũng không cách nào để phát hiện ra nguồn này có cung cấp đường dẫn của chính nó tới các trang web nổi mà không phải crawling toàn bộ trang web hay không. Ngoài ra, cũng có trường hợp một tài nguyên ẩn nấp trên web nổi, và một máy tìm kiếm nào đó chưa tìm ra nó. Do đó, nếu chúng ta có một tài nguyên độc quyền, chúng ta không thể biết chắc chắn tài nguyên đó ẩn nấp trên web nổi hoặc web chìm mà chưa qua crawl (dò tìm) trang web đó.

Hầu kết công việc phân loại kết quả tìm kiếm đã được thư mục hóa web nổi bằng các đề tài. Để phân loại tài nguyên web chìm, Ipeirotis et al đã giới thiệu một thuật toán cho phép phân loại một trang web chìm thành các thư mục mà tạo ra nhiều hit nhất dựa trên vài lựa chọn cẩn thận, các truy vấn-tập trung vào-chủ đề. Các chỉ mục của deep web đang phát triển gồm có OAIsters tại đại học Michigan, Intute tại đại học Manchester, Infomine tại đại học California tại Riverside, và DirectSearch (bởi Gary Price). Các xếp loại này đứng trên một thách thức là việc tìm kiếm web chìm chia ra 2 cấp độ thư mục hóa. Cấp độ 1 là các trang được thư mục hóa thành các chủ đề theo chiều dọc (như sức khỏe, du lịch, ô tô) và các chủ đề-phụ tùy theo tính chất của các nội dung nằm dưới các database (cơ sở dữ liệu) của chúng.

Thách thức lớn hơn nữa là để thư mục hóa và biểu đồ hóa các thông tin trích xuất từ các nguồn web chìm theo nhu cầu người dùng-cuối. Các bản báo cáo tìm kiếm web chìm không thể hiển thị các URL như các tìm kiếm thông thường. Người dùng-cuối mong chờ các công cụ tìm kiếm không chỉ tìm ra những gì họ muốn một cách nhất mà còn phải hiển thị kết quả đó một cách trực quan và thân thiện với người dùng nữa. Để hiểu được ngữ nghĩa, các báo cáo tìm kiếm phải hiểu sâu vào nội dung nằm dưới các tài nguyên này hoặc là người dùng sẽ bị lạc lối trong biển URL mà nội dung đằng sau nó chả ăn nhập gì cả. Định dạng mà các kết quả tìm kiếm hiển thị ra rất phong phú tùy theo chủ đề đặc thù của tìm kiếm nào và loại nội dung được phô ra. Thách thức này là tìm ra và biểu đồ hóa các thành phần dữ liệu tương tự từ nhiều nguồn khác nhau sao cho các kết quả tìm kiếm được sắp xếp trong một định dạng thống nhất trên bản báo cáo tìm kiếm bất kể nguồn tài nguyên mà nó lấy từ đâu.

Các tầng trên Web chìm

Việc chia tầng trên Web chìm có ý kiến trái ngược: Một số cho rằng trên Web chìm có 8 tầng (hoặc hơn). Trong khi số khác khẳng định rằng, trên Web chìm hoàn toàn không có tầng nào cả và khái niệm tầng trên Web chìm dùng để chỉ khả năng bảo mật, khó truy cập của một địa chỉ Internet nào đó, hay mức độ nguy hiểm của các thông tin website chia sẻ... được phân ra nhờ FBI.

Dùng để chỉ những trang web mà chúng ta vẫn truy cập hàng ngày như Wikipedia, YouTube, Facebook... Chúng gọi chung là Web nổi, mặc dù đôi khi chúng được gọi là Common Web (Web thông thường) và được cho là Tầng 0 của Internet, trong khi những trang web đen hơn như Reddit mới là tầng 1 của Internet.

  • Mức độ 2: Web vô thừa nhận (Bergie Web)

Được cho rằng, đây là tầng cuối cùng mà một người dùng Internet có thể truy cập một cách thông thường nhất mà không cần sự can thiệp khác để có thể truy cập chúng (thông qua một proxy, dùng các trình duyệt hỗ trợ như Tor hoặc có sự can thiệp đặc biệt vào phần cứng máy tính). Theo khuyến cáo, tốt nhất không nên truy cập những trang web sau với mức độ cao hơn 2. Tại đây, bạn có thể bắt gặp những trang web bí mật (ngầm) được liệt kê, ví dụ như 4chan.

  • Mức độ 3: Web ẩn, Web chìm (Deep web, Onion Web)

Tầng này có thể truy cập thông qua proxy hoặc hệ thống mạng Tor. Chứa đựng những thông tin nhạy cảm, kinh dị: ấu dâm, clip kinh dị, trang web của các hacker (các trang chuyên hack).. Vì là tầng đầu tiên của Internet mà việc truy cập phải được phải thông qua một sự hỗ trợ từ mạng Tor hoặc thiết đặt phần cứng, nên đôi khi cũng dùng để chỉ cả những tầng cao hơn của Internet. Tầng này không thể truy cập bằng trình duyệt bình thường vì địa chỉ đuôi của trang web loại này (.onion) khi truy cập sẽ bị DNS xem là địa chỉ web không hợp lệ khi truy cập. Chỉ có khi đã kết nối với Proxy mới có thể vào tầng này bằng trình duyệt bình thường.

  • Mức độ 4: Web điều lệ (Web Charter)

Loại mạng này được chia thành 2 phần, để chỉ cách thức truy cập:

Phần 1: Được truy cập thông qua Tor, chứa đựng những nội dung liên quan đến ma tuý, vũ khí, buôn bán người (human trafficking), giết người thuê, buôn bán các loại mặt hàng cấm. Hoặc các ấn bản cấm (phim, sách về dị giáo, hoặc bạo lực...) thậm chí là chợ đen ma túy như Silk Road (chợ đen) . Đây là tầng cuối cùng có thể truy cập bằng trình duyệt Tor khi sử dụng máy tính bình thường. Ở tầng này đối với người dùng chuyên nghiệp thường sẽ sử dụng Linux chứ không phải Windows vì Windows tuy bảo mật nhưng thực tế bên trong có rất nhiều lỗ hổng bảo mật chưa được khai thác rất nguy hiểm cho người sử dụng.
Phần 2: Truy cập chỉ khi có sự thay đổi về phần cứng (nâng cấp phần cứng máy tính sao cho thật mạnh rồi tiếp tục vào.) (Ở đây chỉ nên sử dụng Linux chứ không sử dụng Windows vì Windows ở đây đã hết an toàn. Chúng thường chứa đựng thí nghiệm tình dục trên trẻ em, phụ nữ mang thai và các thí nghiệm khoa học kỳ lạ và vô cùng kinh khủng (kể cả trên cơ thể con người), thường khó được chấp nhận được vì tính vô nhân đạo của chúng.
  • Mức độ 5: Web ẩn dạng mạng lưới xuyên thế giới - mạng trong mạng

Nếu muốn truy cập được các trang web tại mức độ 5, cần có một hệ thống máy trạm đặc biệt. Tại đây là nơi rò rỉ những tài liệu mật của Quốc gia, tổ chức mà vẫn thường thấy trên Wikileaks; các hoạt động tâm linh kỳ quái, các hội đoàn hoạt động bí mật, những hoạt động hiến tế... Chỉ có thể truy cập bằng máy trạm. Việc kết nối với loại mạng này được cảnh báo là nên truy cập bằng một loại máy trạm đặc biệt, thường các loại máy này có cấu hình rất mạnh để có thể giải mã tất cả khóa bảo mật có trong trang web. Loại mạng này là mạng - trong - mạng, để kết nối vào loại web này cần thời gian rất lâu do phải kết nối với nhiều máy chủ.

  • Mức độ 6: Diversion Web

Việc truy cập vào Diversion Web đòi hỏi phải hiểu rõ các vấn đề liên quan đến cơ học lượng tử và cần có kiến thức sâu rộng về máy tính và internet. Kể cả việc vượt qua những hàng rào bảo mật của Chính phủ. Không quá nhiều thông tin được biết về các trang web ở mức độ 6, thường được xem là rào cản an toàn cho người truy cập nếu không muốn chịu rủi ro khi tiến sâu hơn.

  • Mức độ 7: The Fog/Virus Soup

Là nơi hoạt động của những chuyên gia An ninh Internet, các tin tặc , thường diễn ra các hành động phá hoại lẫn nhau, một cách công khai hoặc lén lút nhằm bảo vệ những thông tin mật (những đơn hàng giá trị cao hàng tỷ đôla). Mọi hoạt động tại đây đều không an toàn, đặc biệt là những tài nguyên tải về, thường chứa đựng virus máy tính.

  • Mức độ 8: The Primarch System

Là nơi tận cùng của "Đại dương Internet", được phát hiện ra vào năm 2000 trong một lần rà soát dữ liệu tập trung (Massive Deep Web Scan).

Việc có hay không việc phân tầng Deep Web dựa mức độ bảo mật của chúng vẫn chưa có sự thống nhất.

Tính tốt - xấu

Tương lai

Ranh giới giữa những gì mà các cỗ máy tìm kiếm phát hiện được và deep web đã bắt đầu trở nên phai nhòa, khi các dịch vụ tìm kiếm bắt đầu cung cấp dịch vụ truy xuất tới một phần hoặc toàn bộ các nội dung cấm cấp 1. Lượng nội dung deep web đang được mở ra để tự do tìm kiếm khi các nhà xuất bản và thư thiện đồng ý với các cỗ máy tìm kiếm lớn. Trong tương lai, nội dung của deep web có thể bị thu hẹp bởi vì cơ hội tìm kiếm thông tin bằng cách trả phí hoặc các dạng bản quyền khác ra đời.

Xem thêm

Chú thích