Google Knowledge Graph

tri thức nền sử dụng bởi Google để cải thiện chất lượng kết quả tìm kiếm

Google Knowledge Graph (Sơ đồ Tri thức Google) là một cơ sở tri thức được Google và các dịch vụ của nó sử dụng để nâng cao kết quả của công cụ tìm kiếm với thông tin được thu thập từ nhiều nguồn khác nhau. Thông tin được hiển thị cho người dùng trong hộp thông tin bên cạnh kết quả tìm kiếm. Các hộp thông tin này được thêm vào công cụ tìm kiếm của Google vào tháng 5 năm 2012, bắt đầu tại nước Mỹ, rồi mở rộng ra quốc tế vào cuối năm.[1] Google đã gọi các hộp thông tin này xuất hiện ở bên phải (trên cùng trên thiết bị di động) của kết quả tìm kiếm, là "bảng tri thức".[2]

Dữ liệu bảng tri thức về Thomas Jefferson được hiển thị trên Google Tìm kiếm, kể từ tháng 1 năm 2015

Thông tin trong Knowledge Graph của Google đã tăng nhanh sau khi ra mắt, tăng gấp ba lần quy mô của nó trong vòng bảy tháng (bao gồm 570 triệu thực thể và 18 tỷ dữ kiện[3]). Vào giữa năm 2016, Google báo cáo rằng họ nắm giữ 70 tỷ dữ kiện[4] và trả lời "khoảng một phần ba" trong số 100 tỷ tìm kiếm hàng tháng mà họ xử lý. Đến tháng 5 năm 2020, con số này đã tăng lên 500 tỷ dữ kiện trên 5 tỷ thực thể.[5]

Không có tài liệu chính thức về cách triển khai Google Knowledge Graph.[6] Theo Google, thông tin của nó được lấy từ nhiều nguồn, bao gồm CIA World Factbook, WikidataWikipedia.[1][7] Nó được sử dụng để trả lời các câu hỏi bằng giọng nói trực tiếp trong Google Assistant[8][9]Google Home.[10] Nó đã bị chỉ trích vì cung cấp câu trả lời mà không ghi nguồn hoặc trích dẫn.[11]

Lịch sử

Google đã công bố Knowledge Graph của mình vào ngày 16 tháng 5 năm 2012, như một cách để nâng cao đáng kể giá trị của thông tin được trả về bởi các tìm kiếm của Google.[1] Ban đầu chỉ có sẵn bằng tiếng Anh, nó đã được mở rộng vào tháng 12 năm 2012 sang tiếng Tây Ban Nha, Pháp, Đức, Bồ Đào Nha, Nhật, NgaÝ.[12] Hỗ trợ cho tiếng Bengali đã được thêm vào tháng 3 năm 2017.[13] Knowledge Graph được cung cấp một phần bởi Freebase.[1]

Vào tháng 8 năm 2014, New Scientist đưa tin rằng Google đã khởi động dự án Knowledge Vault (Kho Tri thức).[14] Sau khi công bố, Google đã liên hệ với Search Engine Land để giải thích rằng Knowledge Vault là một bài báo nghiên cứu, không phải là một dịch vụ đang hoạt động của Google và trong báo cáo của mình, Search Engine Land đã đề cập đến các chỉ dẫn của công ty rằng "nhiều mô hình" đang được thử nghiệm để kiểm tra khả năng tự động thu thập ý nghĩa từ văn bản.[15] Knowledge Vault của Google nhằm xử lý các sự kiện, tự động thu thập và kết hợp thông tin từ khắp Internet thành một cơ sở tri thức có khả năng trả lời các câu hỏi trực tiếp, chẳng hạn như "Madonna sinh ra ở đâu". Trong một báo cáo năm 2014, Vault được cho là đã thu thập hơn 1,6 tỷ dữ kiện, 271 triệu trong số đó được coi là "sự thật đáng tin cậy", được coi là đúng hơn 90%. Nó được báo cáo là khác với Knowledge Graph ở chỗ nó thu thập thông tin tự động thay vì dựa vào các dữ kiện có nguồn gốc từ đám đông do con người biên soạn.

Chỉ trích

Thiếu nguồn trích dẫn

Đến tháng 5 năm 2016, các hộp tri thức đã xuất hiện cho "khoảng một phần ba" trong số 100 tỷ lượt tìm kiếm hàng tháng mà công ty đã xử lý. Dario Taraborelli, trưởng nhóm nghiên cứu tại Wikimedia Foundation, nói với The Washington Post rằng việc Google bỏ qua các nguồn trong hộp tri thức của họ "làm suy yếu khả năng xác minh thông tin của mọi người và cuối cùng là phát triển các ý kiến có đầy đủ thông tin". Tờ báo này cũng đưa tin rằng các hộp "thường không được ghi", chẳng hạn như hộp tri thức về tuổi của nữ diễn viên Betty White "không dẫn nguồn và tuyệt đối như thể được Chúa truyền lại".[16]

Giảm lượng người đọc bài viết trên Wikipedia

Theo tờ The Register cho biết vào năm 2014, việc hiển thị các câu trả lời trực tiếp trong bảng tri thức cùng với kết quả tìm kiếm của Google đã gây ra sự sụt giảm đáng kể về lượng độc giả cho Wikipedia, từ đó các bảng này thu được một số thông tin của họ.[17] Cùng năm đó, The Daily Dot lưu ý rằng "Wikipedia vẫn không có đối thủ cạnh tranh thực sự về nội dung thực tế. Tất cả những gì cần làm là số liệu thống kê về lưu lượng truy cập. Và với tư cách là một tổ chức phi lợi nhuận, số lượng lưu lượng truy cập không tương đương với doanh thu theo cách họ làm cho một trang web truyền thông thương mại". Sau khi bài báo được xuất bản, người phát ngôn của Wikimedia Foundation, tổ chức điều hành Wikipedia, tuyên bố rằng họ "hoan nghênh" chức năng của bảng tri thức, rằng họ đang "xem xét" lưu lượng truy cập và "Chúng tôi cũng không nhận thấy sự sụt giảm đáng kể trong phần giới thiệu của công cụ tìm kiếm. Chúng tôi cũng có cuộc đối thoại liên tục với nhân viên của Google làm việc trên Bảng Tri thức".[18]

Trong cuốn sách xuất bản năm 2020 của mình, Dariusz Jemielniak lưu ý rằng hầu hết người dùng Google không nhận ra rằng nhiều câu trả lời cho các câu hỏi của họ xuất hiện trong Knowledge Graph đều đến từ Wikipedia, điều này làm giảm mức độ phổ biến của Wikipedia và hạn chế khả năng gây quỹ mới và thu hút tình nguyện viên mới của trang web này.[19]:20

Xem thêm

Tham khảo